論文の概要: Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
- arxiv url: http://arxiv.org/abs/2502.04404v1
- Date: Thu, 06 Feb 2025 08:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:29.476833
- Title: Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
- Title(参考訳): Leapへのステップバック - 言語モデルの推論強化のためのセルフバックトラッキング
- Authors: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 遅い思考機構を大きな言語モデルに統合することは、Level 2 AGI Reasonersにとって有望な方法である。
トレーニングと推論の両方において,LLMにバックトラック機能を持たせる自己追跡機構を提案する。
このメカニズムは推論能力を高めるだけでなく、スロー思考のプロセスを自己改善を通じて高速思考に変換することで効率も向上する。
- 参考スコア(独自算出の注目度): 42.70951894754312
- License:
- Abstract: The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.
- Abstract(参考訳): 遅い思考機構を大規模言語モデル(LLM)に統合することは、OpenAIのo1のようなシステムで実証されるように、レベル2のAGI推論を実現するための有望な方法を提供する。
しかし、非効率な過剰思考や補助報酬モデルへの過度な依存など、いくつかの重要な課題が残っている。
これらの制限は、効率的な推論の重要な要素である探索プロセスの内部化が不可能なLLMに起因している、と指摘する。
この問題に対処するための重要なステップは、LLMが従来の検索アルゴリズムにおける基本的な操作である、いつどこでバックトラックするかを自律的に決定できるようにすることである。
そこで本研究では,LLMをトレーニングと推論の両方でバックトラックする機能を備えた自己追跡機構を提案する。
このメカニズムは推論能力を高めるだけでなく、スロー思考のプロセスを自己改善を通じて高速思考に変換することで効率も向上する。
実験により,提案手法はLLMの推論能力を大幅に向上させ,最適パス制御微調整法と比較して40%以上の性能向上を実現した。
本研究は,より先進的で堅牢なレゾネーターを開発するための,新規かつ有望な経路を導入していると信じている。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。