論文の概要: Lost at the Beginning of Reasoning
- arxiv url: http://arxiv.org/abs/2506.22058v1
- Date: Fri, 27 Jun 2025 09:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.159065
- Title: Lost at the Beginning of Reasoning
- Title(参考訳): 推論開始時の損失
- Authors: Baohao Liao, Xinyi Chen, Sara Rajaee, Yuhui Xu, Christian Herold, Anders Søgaard, Maarten de Rijke, Christof Monz,
- Abstract要約: 第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 82.18834329384514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly advanced complex reasoning capabilities, particularly through extended chain-of-thought (CoT) reasoning that incorporates mechanisms such as backtracking, self-reflection and self-correction. Despite these developments, the self-correction abilities of LLMs during long CoT reasoning remain underexplored. And recent findings on overthinking suggest that such models often engage in unnecessarily redundant reasoning. In this work, we empirically show that the first reasoning step exerts a disproportionately large influence on the final prediction - errors introduced at this stage can substantially degrade subsequent reasoning quality. This phenomenon is consistently observed across two state-of-the-art open-source reasoning model families: DeepSeek-R1 and Qwen3. To address this, we propose an efficient sampling strategy that leverages a reward model to identify and retain high-quality first reasoning steps while discarding suboptimal ones, achieving up to a 70% reduction in inference cost without sacrificing accuracy. Finally, we introduce a new benchmark specifically constructed with deliberately flawed first reasoning steps to systematically evaluate model self-correction capabilities, offering a foundation for future research on robust reasoning in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特にバックトラック、自己回帰、自己補正などのメカニズムを組み込んだ拡張チェーン・オブ・シント(CoT)推論を通じて、非常に高度な複雑な推論能力を持っている。
これらの発展にもかかわらず、長いCoT推論におけるLLMの自己補正能力は未解明のままである。
そして、最近の過剰思考の調査結果は、そのようなモデルが必然的に冗長な推論に関与していることを示唆している。
本研究では,第1の推論ステップが最終予測に不均等に大きな影響を与えることを実証的に示す。
この現象は、DeepSeek-R1とQwen3の2つの最先端オープンソース推論モデルファミリで一貫して観察されている。
そこで本研究では,提案手法を応用した効率的なサンプリング手法を提案し,精度を犠牲にすることなく,最大70%の推論コスト削減を実現し,高品質な第1推論ステップを特定し,維持する。
最後に,LLMにおけるロバスト推論研究の基盤となるモデル自己補正能力を体系的に評価するために,意図的に欠陥のある第1推論ステップで構築された新しいベンチマークを提案する。
関連論文リスト
- Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。
提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。
提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文 参考訳(メタデータ) (2025-06-17T10:16:52Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Superficial Self-Improved Reasoners Benefit from Model Merging [38.72827436256771]
高品質データコーパスの合成ソリューションとしての自己改善
特に,本分析の結果から,LMがドメイン内推論の精度を向上したとしても,それらの一般的な推論能力を損なうことが判明した。
提案手法は,オリジナルモデルと自己改善モデルとの重みを戦略的に組み合わせ,一般化を保ちながら反復モデルマージング(IMM)を提案する。
論文 参考訳(メタデータ) (2025-03-03T22:41:25Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。