論文の概要: GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2306.13089v2
- Date: Fri, 23 Jun 2023 06:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 16:47:14.574899
- Title: GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning
- Title(参考訳): GIMLET:授業に基づくゼロショット学習のための統一グラフテキストモデル
- Authors: Haiteng Zhao, Shengchao Liu, Chang Ma, Hannan Xu, Jie Fu, Zhi-Hong
Deng, Lingpeng Kong, Qi Liu
- Abstract要約: 本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
- 参考スコア(独自算出の注目度): 41.788123507115856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecule property prediction has gained significant attention in recent
years. The main bottleneck is the label insufficiency caused by expensive lab
experiments. In order to alleviate this issue and to better leverage textual
knowledge for tasks, this study investigates the feasibility of employing
natural language instructions to accomplish molecule-related tasks in a
zero-shot setting. We discover that existing molecule-text models perform
poorly in this setting due to inadequate treatment of instructions and limited
capacity for graphs. To overcome these issues, we propose GIMLET, which unifies
language models for both graph and text data. By adopting generalized position
embedding, our model is extended to encode both graph structures and
instruction text without additional graph encoding modules. GIMLET also
decouples encoding of the graph from tasks instructions in the attention
mechanism, enhancing the generalization of graph features across novel tasks.
We construct a dataset consisting of more than two thousand molecule tasks with
corresponding instructions derived from task descriptions. We pretrain GIMLET
on the molecule tasks along with instructions, enabling the model to transfer
effectively to a broad range of tasks. Experimental results demonstrate that
GIMLET significantly outperforms molecule-text baselines in instruction-based
zero-shot learning, even achieving closed results to supervised GNN models on
tasks such as toxcast and muv.
- Abstract(参考訳): 近年,分子特性の予測が注目されている。
主なボトルネックは、高価な実験実験によるラベルの不足である。
本研究は、この問題を緩和し、タスクのテキスト知識をより活用するために、ゼロショット設定で分子関連タスクを達成するために自然言語命令を用いることの可能性を検討する。
既存の分子テキストモデルは,命令の不適切な処理やグラフのキャパシティの制限などにより,この設定では性能に乏しいことが判明した。
これらの問題を解決するために,グラフデータとテキストデータの言語モデルを統合するGIMLETを提案する。
一般化された位置埋め込みを採用することにより、我々のモデルはグラフ構造と命令文の両方を追加のグラフ符号化モジュールなしでエンコードするように拡張される。
GIMLETはまた、アテンションメカニズムのタスク命令からグラフのエンコーディングを分離し、新しいタスク間のグラフ機能の一般化を強化する。
我々は、タスク記述から派生した命令を含む、2,000分子以上のタスクからなるデータセットを構築する。
我々は、GIMLETを分子タスクにプリトレーニングし、命令とともにモデルが幅広いタスクに効果的に転送できるようにする。
実験の結果、gimletは命令ベースのゼロショット学習において分子テキストベースラインを大きく上回り、toxcastやmmvなどのタスクでgnnモデルを監督する閉じた結果を得ることができた。
関連論文リスト
- Enhance Graph Alignment for Large Language Models [33.96082485852042]
グラフへのアプローチは、大規模言語モデルがグラフ情報を処理できることで人気がある。
既存の手法は、自己監督タスクと下流タスクの間に不一致がある。
協調タスクテンプレートの恩恵を受けるために,グラフアライメント大言語モデル(GALLM)を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:50:34Z) - Instruction-Based Molecular Graph Generation with Unified Text-Graph Diffusion Model [22.368332915420606]
Unified Text-Graph Diffusion Model (UTGDiff) は命令から分子グラフを生成するフレームワークである。
UTGDiffは、事前訓練された言語モデルから派生したデノナイジングネットワークとして統一されたテキストグラフ変換器を備えている。
実験の結果,UTGDiffは命令ベース分子の生成と編集に関わるタスクにおいて,シーケンスベースベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-19T11:09:15Z) - MuseGraph: Graph-oriented Instruction Tuning of Large Language Models
for Generic Graph Mining [41.19687587548107]
グラフニューラルネットワーク(GNN)は、異なるグラフタスクやデータセットに適用されるたびに、再トレーニングされる必要がある。
GNNとLarge Language Models(LLM)の強みをシームレスに統合する新しいフレームワークMusteGraphを提案する。
実験結果から,異なるグラフタスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-03-02T09:27:32Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Structured Multi-task Learning for Molecular Property Prediction [30.77287550003828]
本稿では,タスク間の関係グラフが利用可能な新しい環境下で,分子特性予測のためのマルチタスク学習について検討する。
本研究では,その関係グラフに状態グラフニューラルネットワーク(SGNN)を適用し,タスク表現をモデル化する。
エネルギーベースモデル (EBM) を用いた構造予測を, ノイズコントラスト推定 (NCE) 手法により効率的に学習できる。
論文 参考訳(メタデータ) (2022-02-22T20:31:23Z) - Motif-based Graph Self-Supervised Learning forMolecular Property
Prediction [12.789013658551454]
グラフニューラルネットワーク(GNN)は、様々な分子生成および予測タスクにおいて顕著な成功を収めている。
既存のGNN用の自己教師付き事前トレーニングフレームワークのほとんどは、ノードレベルまたはグラフレベルのタスクのみに焦点を当てている。
GNNのための新しい自己教師型モチーフ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T11:45:51Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。