論文の概要: VeriThinker: Learning to Verify Makes Reasoning Model Efficient
- arxiv url: http://arxiv.org/abs/2505.17941v1
- Date: Fri, 23 May 2025 14:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.14455
- Title: VeriThinker: Learning to Verify Makes Reasoning Model Efficient
- Title(参考訳): VeriThinker: 推論モデルを効果的に検証する学習
- Authors: Zigeng Chen, Xinyin Ma, Gongfan Fang, Ruonan Yu, Xinchao Wang,
- Abstract要約: 大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
- 参考スコア(独自算出の注目度): 52.74493506816969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) excel at complex tasks using Chain-of-Thought (CoT) reasoning. However, their tendency to overthinking leads to unnecessarily lengthy reasoning chains, dramatically increasing inference costs. To mitigate this issue, we introduce VeriThinker, a novel approach for CoT compression. Unlike conventional methods that fine-tune LRMs directly on the original reasoning task using synthetic concise CoT data, we innovatively fine-tune the model solely through an auxiliary verification task. By training LRMs to accurately verify the correctness of CoT solutions, the LRMs inherently become more discerning about the necessity of subsequent self-reflection steps, thereby effectively suppressing overthinking. Extensive experiments validate that VeriThinker substantially reduces reasoning chain lengths while maintaining or even slightly improving accuracy. When applied to DeepSeek-R1-Distill-Qwen-7B, our approach reduces reasoning tokens on MATH500 from 3790 to 2125 while improving accuracy by 0.8% (94.0% to 94.8%), and on AIME25, tokens decrease from 14321 to 10287 with a 2.1% accuracy gain (38.7% to 40.8%). Additionally, our experiments demonstrate that VeriThinker can also be zero-shot generalized to speculative reasoning. Code is available at https://github.com/czg1225/VeriThinker
- Abstract(参考訳): 大型推論モデル (LRM) は、Chain-of-Thought (CoT) 推論を用いて複雑なタスクに優れる。
しかし、過度に考える傾向は、不必要に長い推論連鎖をもたらし、推論コストが劇的に増加する。
この問題を軽減するために,我々は,CoT圧縮の新しいアプローチであるVeriThinkerを紹介する。
合成簡潔なCoTデータを用いて、元の推論タスクを直接微調整する従来の手法とは異なり、我々は、補助的な検証タスクのみを通して、モデルを革新的に微調整する。
LRMをトレーニングしてCoT溶液の正しさを正確に検証することにより、LEMは本質的に、その後の自己回帰ステップの必要性をより正確に把握し、過度な思考を効果的に抑制する。
広範囲な実験により、VeriThinkerは精度を維持またはわずかに改善しながら、推論チェーンの長さを著しく減少させることが検証された。
DeepSeek-R1-Distill-Qwen-7Bに適用すると、MATH500の推論トークンは3790から2125に減少し、精度は0.8%(94.0%から94.8%)、AIME25ではトークンは14321から10287に減少し、精度は2.1%(38.7%から40.8%)となった。
さらに、我々の実験では、VeriThinkerは投機的推論に対してゼロショットの一般化も可能であることを示した。
コードはhttps://github.com/czg1225/VeriThinkerで入手できる。
関連論文リスト
- Not All Tokens Are What You Need In Thinking [34.767739567093656]
条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。
CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。
さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
論文 参考訳(メタデータ) (2025-05-23T12:41:29Z) - Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Dynamic Early Exit in Reasoning Models [13.982812528756504]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。