論文の概要: SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2505.24181v1
- Date: Fri, 30 May 2025 03:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.755289
- Title: SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought
- Title(参考訳): SCOUT:フロー・オブ・サートによる推論を促進する事前学習型言語モデル
- Authors: Guanghao Li, Wenhao Jiang, Mingfeng Chen, Yan Li, Hao Yu, Shuting Dong, Tao Ren, Ming Tang, Chun Yuan,
- Abstract要約: 思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
- 参考スコア(独自算出の注目度): 37.53215651690168
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chain of Thought (CoT) prompting improves the reasoning performance of large language models (LLMs) by encouraging step by step thinking. However, CoT-based methods depend on intermediate reasoning steps, which limits scalability and generalization. Recent work explores recursive reasoning, where LLMs reuse internal layers across iterations to refine latent representations without explicit CoT supervision. While promising, these approaches often require costly pretraining and lack a principled framework for how reasoning should evolve across iterations. We address this gap by introducing Flow Chain of Thought (Flow CoT), a reasoning paradigm that models recursive inference as a progressive trajectory of latent cognitive states. Flow CoT frames each iteration as a distinct cognitive stage deepening reasoning across iterations without relying on manual supervision. To realize this, we propose SCOUT (Stepwise Cognitive Optimization Using Teachers), a lightweight fine tuning framework that enables Flow CoT style reasoning without the need for pretraining. SCOUT uses progressive distillation to align each iteration with a teacher of appropriate capacity, and a cross attention based retrospective module that integrates outputs from previous iterations while preserving the models original computation flow. Experiments across eight reasoning benchmarks show that SCOUT consistently improves both accuracy and explanation quality, achieving up to 1.8% gains under fine tuning. Qualitative analyses further reveal that SCOUT enables progressively deeper reasoning across iterations refining both belief formation and explanation granularity. These results not only validate the effectiveness of SCOUT, but also demonstrate the practical viability of Flow CoT as a scalable framework for enhancing reasoning in LLMs.
- Abstract(参考訳): 思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
しかし、CoTベースの手法は、スケーラビリティと一般化を制限する中間的推論ステップに依存する。
最近の研究は再帰的推論(recursive reasoning)を探求しており、LLMは繰り返しにまたがって内部層を再利用し、CoTの明示的な監督なしに遅延表現を洗練させる。
有望ではあるが、これらのアプローチは、しばしばコストのかかる事前学習を必要とし、イテレーション間での推論の進化に関する原則的なフレームワークを欠いている。
このギャップに対処するために、リ帰的推論を潜在認知状態の進行軌道としてモデル化する推論パラダイムであるFlow CoT(Flow Chain of Thought)を導入する。
Flow CoTは、各イテレーションを、手動の監督に頼ることなく、イテレーション全体の推論を深める、明確な認知段階として捉えています。
これを実現するためにSCOUT(Stepwise Cognitive Optimization Using Teachers)を提案する。これはフローCoTスタイルの推論を可能にする軽量な微調整フレームワークで、事前学習は不要である。
SCOUTはプログレッシブ蒸留を使用して、各イテレーションを適切な能力を持つ教師と整合させ、モデルのオリジナルの計算フローを維持しながら、以前のイテレーションからの出力を統合するクロスアテンションベースのレトロスペクティブモジュールを使用する。
8つの推論ベンチマークでの実験では、SCOUTは精度と説明品質を一貫して改善し、微調整で最大1.8%のゲインを達成している。
質的な分析により、SCOUTは、信念の形成と説明の粒度の両方を補う反復を通して徐々に深い推論を可能にしていることが明らかになった。
これらの結果はSCOUTの有効性を検証するだけでなく、LLMにおける推論を強化するためのスケーラブルなフレームワークとしてFlow CoTの実用性を示す。
関連論文リスト
- Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。