論文の概要: The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2601.06002v2
- Date: Tue, 13 Jan 2026 18:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 14:06:39.25541
- Title: The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning
- Title(参考訳): 思考の分子構造--長鎖推論のトポロジーのマッピング
- Authors: Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang,
- Abstract要約: 有効かつ学習可能なLong CoTトラジェクトリは、統一された視点で安定な分子様構造を特徴とすることを示す。
有効セマンティック異性体を導入し, 高速エントロピー収束を促進する結合のみが安定なLong CoT学習を支援することを示す。
本稿では,効率の良いLong CoT構造の合成を導出する分布移動グラフ法であるMole-Synを提案する。
- 参考スコア(独自算出の注目度): 76.05038073223152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.
- Abstract(参考訳): 大型言語モデル(LLM)は、人間または非Long-CoT LLMの模倣から効果的なロングチェーン・オブ・ソート(Long CoT)を学ばないことが多い。
これを理解するために, 有効かつ学習可能なLong CoT軌道は, 3つの相互作用タイプ, ディープ・レアソン(共有結合), セルフ・リフレクション(水素結合), セルフ・エクスプロレーション(ヴァン・デル・ワールス)によって形成される, 統一的な視点で安定な分子構造を特徴付けることを提案する。
蒸留軌道の解析により、これらの構造はキーワードの模倣ではなく、Long CoTファインチューニングから現れることが明らかになった。
本研究では, 有効セマンティック異性体を導入し, 高速エントロピー収束を促進する結合のみが安定なLong CoT学習をサポートし, 構造的競争はトレーニングを損なうことを示した。
これらの知見に基づいて, 有効長CoT構造の合成, 性能の向上, ベンチマーク間のRL安定性を誘導する分布移動グラフ法であるMole-Synを提案する。
関連論文リスト
- Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs [51.29260537017623]
大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。
これらのモデルは、しばしば往復一貫性を欠いている。
本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:58:58Z) - What Makes a Good Reasoning Chain? Uncovering Structural Patterns in Long Chain-of-Thought Reasoning [45.660562905010934]
逐次LCoTを階層木構造に変換する自動化フレームワークであるLCoT2Treeを提案する。
グラフニューラルネットワーク(GNN)を用いて,LCoT2Treeによって抽出された構造パターンが最終性能の強い予測因子となることを明らかにした。
以上の結果から,LCoT2TreeをLLMの診断・解釈・改善のための強力なツールとして位置づけた。
論文 参考訳(メタデータ) (2025-05-28T09:12:31Z) - Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。
複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation [22.875285119636235]
R1蒸留スキームは、推論能力の強化した費用対効果モデルの訓練に有望なアプローチとして登場した。
本研究では, 蒸留データの普遍性を検証し, 長鎖推論能力の効率的な伝達を可能にする重要な成分を同定する。
蒸留データ強化フレームワークであるDLCoT(Deconstructing Long Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2025-03-20T17:46:38Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。