論文の概要: Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?
- arxiv url: http://arxiv.org/abs/2510.06410v1
- Date: Tue, 07 Oct 2025 19:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.171025
- Title: Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?
- Title(参考訳): 軌道外共振:LLMは軌道上共振できるか?
- Authors: Aochong Oliver Li, Tanya Goyal,
- Abstract要約: 推論 LLM は推論プロセスの言語化のために訓練され、複雑なタスクに対して強い利益をもたらす。
重要な前提条件は、他のモデルの部分的思考に基づいて有用性を評価し、構築する能力である。
本稿では,標準の単調訓練パイプラインが望ましい軌道外行動を提供できるか,という課題を考察する。
- 参考スコア(独自算出の注目度): 13.980638430366625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning LLMs are trained to verbalize their reasoning process, yielding strong gains on complex tasks. This transparency also opens a promising direction: multiple reasoners can directly collaborate on each other's thinking within a shared trajectory, yielding better inference efficiency and exploration. A key prerequisite, however, is the ability to assess the usefulness and build on another model's partial thinking -- we call this off-trajectory reasoning. Our paper investigates a critical question: can standard solo-reasoning training pipelines deliver desired off-trajectory behaviors? We propose twin tests that capture the two extremes of the off-trajectory spectrum, namely Recoverability, which tests whether LLMs can backtrack from "distractions" induced by misleading reasoning traces, and Guidability, which tests their ability to build upon correct reasoning from stronger collaborators. Our study evaluates 15 open-weight LLMs (1.5B-32B) and reveals a counterintuitive finding -- "stronger" LLMs on benchmarks are often more fragile under distraction. Moreover, all models tested fail to effectively leverage guiding steps from collaborators on problems beyond their inherent capabilities with solve rates remaining under 9.2%. Finally, we conduct control studies to isolate the effects of three factors in post-training on these behaviors: the choice of distillation teacher, the use of RL, and data selection strategy. Our results provide actionable insights for training natively strong reasoning collaborators; e.g., we find that suboptimal recoverability behaviors of teacher models are transferred to distilled students even if the distillation trajectories are correct. Taken together, this work lays the groundwork for evaluating multi-model collaborations in shared reasoning trajectories and highlights the limitations of off-the-shelf reasoning LLMs.
- Abstract(参考訳): 推論 LLM は推論プロセスの言語化のために訓練され、複雑なタスクに対して強い利益をもたらす。
この透明性はまた、有望な方向を開く: 複数の推論者は、共有された軌道内でお互いの思考を直接的に協調でき、推論効率と探索性が向上する。
しかし、重要な前提条件は、他のモデルの部分的思考に基づいて有用性を評価し、構築する能力である。
標準の単調なトレーニングパイプラインは望ましい軌道外行動を提供できるか?
本研究では,2つの極端な軌道外スペクトル,すなわちリカバリビリティ(Recoverability)と,より強い協力者による正しい推論に基づいて構築する能力をテストする誘導可能性(Guidability)について検討する。
本研究は15個のオープンウェイトLSM(1.5B-32B)を評価し,ベンチマーク上での"ストロンガー"LSMの反直感的な発見は,しばしば気を散らす中で脆弱であることを示す。
さらに、テストされたすべてのモデルは、9.2%未満の解決率で固有の能力以上の問題に関して、協力者からの指導的ステップを効果的に活用することができない。
最後に,蒸留指導者の選択,RLの使用,データ選択戦略の3つの要因がこれらの行動に与える影響を明らかにするための制御研究を行った。
実験結果から, 蒸留軌道が正しい場合でも, 教師モデルの最適部分回復行動が留学生に伝達されることが判明した。
まとめると、この研究は、共用推論軌道におけるマルチモデル協調の評価の基盤となり、既製の推論LPMの限界を強調している。
関連論文リスト
- FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。