論文の概要: Knowledge-Augmented Long-CoT Generation for Complex Biomolecular Reasoning
- arxiv url: http://arxiv.org/abs/2511.08024v1
- Date: Wed, 12 Nov 2025 01:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.603904
- Title: Knowledge-Augmented Long-CoT Generation for Complex Biomolecular Reasoning
- Title(参考訳): 複合分子推論のための知識強化長CoT生成
- Authors: Tianwen Lyu, Xiang Zhuang, Keyan Ding, Xinzhe Cao, Lei Liang, Wei Zhao, Qiang Zhang, Huajun Chen,
- Abstract要約: 生体分子機構は、分子間相互作用、シグナルカスケード、代謝経路の多段階的推論を必要とする。
既存のアプローチはしばしばこれらの問題を悪化させる: 推論ステップは生物学的事実から逸脱したり、長い機械的依存関係を捉えるのに失敗する。
本稿では,LLMと知識グラフに基づくマルチホップ推論チェーンを統合したLong-CoT推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.673503054645415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding complex biomolecular mechanisms requires multi-step reasoning across molecular interactions, signaling cascades, and metabolic pathways. While large language models(LLMs) show promise in such tasks, their application to biomolecular problems is hindered by logical inconsistencies and the lack of grounding in domain knowledge. Existing approaches often exacerbate these issues: reasoning steps may deviate from biological facts or fail to capture long mechanistic dependencies. To address these challenges, we propose a Knowledge-Augmented Long-CoT Reasoning framework that integrates LLMs with knowledge graph-based multi-hop reasoning chains. The framework constructs mechanistic chains via guided multi-hop traversal and pruning on the knowledge graph; these chains are then incorporated into supervised fine-tuning to improve factual grounding and further refined with reinforcement learning to enhance reasoning reliability and consistency. Furthermore, to overcome the shortcomings of existing benchmarks, which are often restricted in scale and scope and lack annotations for deep reasoning chains, we introduce PrimeKGQA, a comprehensive benchmark for biomolecular question answering. Experimental results on both PrimeKGQA and existing datasets demonstrate that although larger closed-source models still perform well on relatively simple tasks, our method demonstrates clear advantages as reasoning depth increases, achieving state-of-the-art performance on multi-hop tasks that demand traversal of structured biological knowledge. These findings highlight the effectiveness of combining structured knowledge with advanced reasoning strategies for reliable and interpretable biomolecular reasoning.
- Abstract(参考訳): 複雑な生体分子機構を理解するには、分子間相互作用、シグナルカスケード、代謝経路の多段階的推論が必要である。
大規模言語モデル(LLM)はそのようなタスクにおいて有望であるが、それらの生体分子問題への応用は論理的不整合とドメイン知識の基盤の欠如によって妨げられる。
既存のアプローチはしばしばこれらの問題を悪化させる: 推論ステップは生物学的事実から逸脱したり、長い機械的依存関係を捉えるのに失敗する。
これらの課題に対処するために,LLMと知識グラフに基づくマルチホップ推論チェーンを統合したナレッジ強化Long-CoT推論フレームワークを提案する。
このフレームワークは、ガイド付きマルチホップ・トラバースと知識グラフによるプルーニングを通じてメカニスティック・チェーンを構築し、これらのチェーンを教師付き微調整に組み込んで、現実のグラウンド化を改善し、さらに強化学習によって洗練し、推論の信頼性と整合性を高める。
さらに、しばしば規模や範囲が制限され、深い推論チェーンのアノテーションが欠如している既存のベンチマークの欠点を克服するため、生体分子質問応答のための包括的なベンチマークであるPrimeKGQAを導入する。
PrimeKGQAと既存のデータセットの双方の実験結果から,大規模なクローズドソースモデルは比較的単純なタスクでは依然として良好に動作するが,提案手法は推論深度が増大するにつれて明らかな優位性を示し,構造化された生物学的知識のトラバースを要求するマルチホップタスクにおける最先端のパフォーマンスを実現する。
これらの知見は、構造化知識と高度な推論戦略を組み合わせることで、信頼性と解釈可能な生体分子推論の有効性を浮き彫りにした。
関連論文リスト
- GraphAgents: Knowledge Graph-Guided Agentic AI for Cross-Domain Materials Design [0.9332987715848714]
大型言語モデル (LLMs) は、科学的な視野を広げることで発見を加速することを約束する。
材料科学では、革新が分子化学から機械的性能までの概念を統合することを要求するが、これは特に急激である。
本稿では,PFAS(per-およびpolyfluoroalkyl substances)-chemicalsの持続可能な代替品を見つけるために,大規模知識グラフでガイドされたマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-07T10:50:34Z) - Progressive Multi-Agent Reasoning for Biological Perturbation Prediction [32.71169480836875]
複雑な化学摂動下での標的遺伝子の制御を予測するための新しいベンチマークであるLINCSQAを提案する。
また,PBio-Agentを提案する。PBio-Agentは,難易度を考慮したタスクシークエンシングと反復的知識の洗練を統合したマルチエージェントフレームワークである。
私たちの重要な洞察は、同じ摂動によって影響を受ける遺伝子は因果構造を共有しており、自信を持って予測された遺伝子がより困難なケースを文脈化できるということです。
論文 参考訳(メタデータ) (2026-02-07T06:59:44Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - BIOME-Bench: A Benchmark for Biomolecular Interaction Inference and Multi-Omics Pathway Mechanism Elucidation from Scientific Literature [12.185152549393152]
BIOME-Benchは、マルチオミクス解析において、大規模言語モデル(LLM)の2つのコア機能を評価するために、厳格な4段階のワークフローによって構築される。
両タスクの評価プロトコルを開発し、複数の強力な現代モデルにまたがる包括的実験を行う。
論文 参考訳(メタデータ) (2025-12-31T09:01:27Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs [78.18336140706471]
Sci-LLMは、生物発見を加速するための有望なフロンティアとして登場した。
現在の戦略では生の生体分子配列を処理する際にSci-LLMの推論能力を制限する。
より効果的な戦略は、Sci-LLMに高レベルな構造化コンテキストを提供することである。
論文 参考訳(メタデータ) (2025-10-27T09:03:21Z) - $\ ext{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery [21.895481477176475]
Mol-R1は、テキストベースの分子生成におけるR1のようなExplicit Long-CoT推論モデルの説明可能性と推論性能を改善するために設計された新しいフレームワークである。
分子反復適応(英: Molecular Iterative Adaptation)とは、分子発見のためのR1ライクな推論モデルの推論性能を高めるために、SFT(Supervised Fine-tuning)とRPO(Reinforced Policy Optimization)を反復的に組み合わせたトレーニング戦略である。
論文 参考訳(メタデータ) (2025-08-11T18:50:05Z) - BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model [12.528834366422466]
BioReasonは論理的、生物学的に一貫性のある還元物を生成することを学ぶ。
KEGGによる疾患経路予測の精度は86%から98%に向上する。
また、強いベースラインよりも平均15%の変動効果予測を改善する。
論文 参考訳(メタデータ) (2025-05-29T15:49:27Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - Molecular Odor Prediction Based on Multi-Feature Graph Attention Networks [11.912107063761939]
定量的構造・臭気関係タスクは、分子構造とそれに対応する臭気の関係を予測することを伴う。
グラフ注意ネットワークを用いて分子構造をモデル化し,局所的特徴と大域的特徴の両方を捉えるQSORの手法を提案する。
提案手法はQSOR予測タスクにおいて明らかな利点を示し, 深層学習のケミノフォマティクスへの応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-02-03T15:11:24Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph [29.447300472617826]
Think-on-Graph (ToG)は、大規模言語モデル(LLM)における外部知識グラフ(KG)に対する新しいアプローチである。
ToGはKG上でビームサーチを繰り返し実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す。
ToGは、以前のSOTAが追加トレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。
論文 参考訳(メタデータ) (2023-07-15T03:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。