論文の概要: Multi-scale Graph Autoregressive Modeling: Molecular Property Prediction via Next Token Prediction
- arxiv url: http://arxiv.org/abs/2601.02530v1
- Date: Mon, 05 Jan 2026 20:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.715905
- Title: Multi-scale Graph Autoregressive Modeling: Molecular Property Prediction via Next Token Prediction
- Title(参考訳): マルチスケールグラフ自己回帰モデリング:次のトークン予測による分子特性予測
- Authors: Zhuoyang Jiang, Yaosen Min, Peiran Jin, Lei Chen,
- Abstract要約: Connection-Aware Motif Sequencing (CamS)は、分子グラフを学習するためのグラフからシーケンスの表現である。
CamSは、分子グラフを構造豊富な因果配列にシリアライズすることでギャップを埋める。
我々はCamS配列上のバニラLLaMAバックボーンを事前訓練することでCamS-LLaMAをインスタンス化する。
- 参考スコア(独自算出の注目度): 6.028057217858973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Connection-Aware Motif Sequencing (CamS), a graph-to-sequence representation that enables decoder-only Transformers to learn molecular graphs via standard next-token prediction (NTP). For molecular property prediction, SMILES-based NTP scales well but lacks explicit topology, whereas graph-native masked modeling captures connectivity but risks disrupting the pivotal chemical details (e.g., activity cliffs). CamS bridges this gap by serializing molecular graphs into structure-rich causal sequences. CamS first mines data-driven connection-aware motifs. It then serializes motifs via scaffold-rooted breadth-first search (BFS) to establish a stable core-to-periphery order. Crucially, CamS enables hierarchical modeling by concatenating sequences from fine to coarse motif scales, allowing the model to condition global scaffolds on dense, uncorrupted local structural evidence. We instantiate CamS-LLaMA by pre-training a vanilla LLaMA backbone on CamS sequences. It achieves state-of-the-art performance on MoleculeNet and the activity-cliff benchmark MoleculeACE, outperforming both SMILES-based language models and strong graph baselines. Interpretability analysis confirms that our multi-scale causal serialization effectively drives attention toward cliff-determining differences.
- Abstract(参考訳): 我々は、デコーダのみのトランスフォーマーが標準のNext-token Prediction (NTP)を通して分子グラフを学習できるグラフ対シーケンス表現であるConnection-Aware Motif Sequencing (CamS)を提案する。
分子特性予測では、SMILESベースのNTPはよくスケールするが、明示的なトポロジーは欠如するが、グラフネイティブなマスク付きモデリングは接続性を捉えているが、重要な化学的詳細(例えば活動崖)を乱すリスクがある。
CamSはこのギャップを分子グラフを構造豊富な因果配列にシリアライズすることで埋める。
CamSはまず、データ駆動接続対応モチーフをマイニングする。
その後、足場を根ざしたブロードスファーストサーチ(BFS)によってモチーフをシリアライズし、安定したコア・ツー・周辺秩序を確立する。
重要なことは、CamSは微細なモチーフスケールから粗いモチーフスケールまでのシーケンスを結合することで階層的モデリングを可能にし、このモデルが密集した非破壊的な局所的な構造的証拠にグローバルな足場を条件付けることを可能にする。
我々はCamS配列上のバニラLLaMAバックボーンを事前訓練することでCamS-LLaMAをインスタンス化する。
MoleculeNetとActivity-cliffベンチマークのMoeculeACE上での最先端のパフォーマンスを実現し、SMILESベースの言語モデルと強力なグラフベースラインの両方を上回っている。
解釈可能性分析により,我々のマルチスケール因果シリアライゼーションが崖決差に効果的に注意を向けることが確認された。
関連論文リスト
- Scalable Graph Generative Modeling via Substructure Sequences [50.32639806800683]
本稿では,グラフ生成用トランスフォーマー事前学習フレームワークである生成グラフパターンマシン(G$2$PM)を紹介する。
G$2$PMはグラフインスタンス(ノード、エッジ、グラフ全体)をサブ構造のシーケンスとして表現する。
それは、一般化可能かつ伝達可能な表現を学ぶために、シーケンスに関する生成的事前学習を採用する。
論文 参考訳(メタデータ) (2025-05-22T02:16:34Z) - Beyond Message Passing: Neural Graph Pattern Machine [50.78679002846741]
本稿では,グラフサブストラクチャから直接学習することで,メッセージパッシングをバイパスする新しいフレームワークであるNeural Graph Pattern Machine(GPM)を紹介する。
GPMはタスク関連グラフパターンを効率的に抽出し、エンコードし、優先順位付けする。
論文 参考訳(メタデータ) (2025-01-30T20:37:47Z) - Best of Both Worlds: Advantages of Hybrid Graph Sequence Models [20.564009321626198]
グラフ上での学習にグラフシーケンスモデルを採用するための統一フレームワークを提案する。
本稿では,グローバルおよびローカルなグラフタスクのレンズを用いて,トランスフォーマーと現代のリカレントモデルの表現能力を評価する。
GSM++は階層的親和性クラスタリング(HAC)アルゴリズムを用いてグラフを階層的シーケンスにトークン化する高速ハイブリッドモデルである。
論文 参考訳(メタデータ) (2024-11-23T23:24:42Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - GOFA: A Generative One-For-All Model for Joint Graph Language Modeling [38.267339613261996]
この問題を解決するために,新たに生成グラフ言語モデルGOFAを提案する。
GOFAは、新たに提案されたグラフレベルの次単語予測、質問応答、構造的タスクに基づいて事前訓練されている。
モデルは様々な下流タスクに基づいて評価され、ゼロショットシナリオにおける構造的および文脈的問題を解く強力な能力を示す。
論文 参考訳(メタデータ) (2024-07-12T22:23:51Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Hypergraph Transformer for Skeleton-based Action Recognition [21.763844802116857]
スケルトンをベースとした行動認識は、骨格の相互接続を伴う人間の関節座標が与えられた人間の行動を認識することを目的としている。
それまでの作業では、共同発生をモデル化するためにGCN(Graph Convolutional Network)をうまく採用していた。
本稿では,ハイパーグラフ上での自己注意機構をHypergraph Self-Attention (HyperSA) として提案し,そのモデルに内在的な高次関係を組み込む。
論文 参考訳(メタデータ) (2022-11-17T15:36:48Z) - Motif-based Graph Self-Supervised Learning forMolecular Property
Prediction [12.789013658551454]
グラフニューラルネットワーク(GNN)は、様々な分子生成および予測タスクにおいて顕著な成功を収めている。
既存のGNN用の自己教師付き事前トレーニングフレームワークのほとんどは、ノードレベルまたはグラフレベルのタスクのみに焦点を当てている。
GNNのための新しい自己教師型モチーフ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T11:45:51Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。