論文の概要: Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models
- arxiv url: http://arxiv.org/abs/2508.03363v2
- Date: Wed, 06 Aug 2025 03:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.405249
- Title: Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models
- Title(参考訳): キャリブレーションを思い浮かべる - 大規模言語モデルの推論における新しいインテクスト学習パラダイム
- Authors: Haotian Wu, Bo Xu, Yao Shu, Menglin Yang, Chengwei Qin,
- Abstract要約: 我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。
提案手法は,思考モードと思考モードの2つの回答を並列に生成する。
JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
- 参考スコア(独自算出の注目度): 23.642200042199484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning large language models (RLLMs) have recently demonstrated remarkable capabilities through structured and multi-step reasoning. While prior research has primarily focused on improving their training and inference strategies, their potential for in-context learning (ICL) remains largely underexplored. To fill this gap, we propose Thinking with Nothinking Calibration (JointThinking), a new ICL paradigm that leverages the structured difference between two reasoning modes, i.e., Thinking and Nothinking, to improve reasoning accuracy. Specifically, our method prompts the model to generate two answers in parallel: one in Thinking mode and the other in Nothinking mode. A second round of Thinking is triggered only when the two initial responses are inconsistent, using a single prompt that incorporates the original question and both candidate answers. Since such disagreement occurs infrequently (e.g., only 6\% in GSM8K), our method performs just one round of reasoning in most cases, resulting in minimal latency overhead. Extensive experiments across multiple reasoning benchmarks demonstrate that JointThinking significantly outperforms few-shot chain-of-thought (CoT) and majority voting with improved answer robustness. Moreover, It achieves comparable in-distribution performance to training-based SOTA method, while substantially outperforming on out-of-distribution tasks. We further conduct a systematic analysis of the calibration mechanism, showing that leveraging different reasoning modes consistently lowers the error rate and highlights the value of structural thinking diversity. Additionally, we observe that the performance gap between actual and ideal reasoning narrows as model size increases in the second round of thinking, indicating the strong scalability of our approach. Finally, we discuss current limitations and outline promising directions for future ICL research in RLLMs.
- Abstract(参考訳): RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
従来の研究は主にトレーニングと推論戦略の改善に重点を置いてきたが、インコンテキストラーニング(ICL)の可能性はいまだに未熟である。
このギャップを埋めるために、我々は2つの推論モード、すなわち思考と思考の区別を利用して推論精度を向上させる新しいICLパラダイムであるThinking with Nothinking Calibration (JointThinking)を提案する。
具体的には,1つは思考モード,もう1つは思考モード,もう1つは思考モードである。
思考の第2ラウンドは、2つの初期応答が矛盾している場合にのみトリガーされ、元の質問と両方の候補回答を組み込んだ1つのプロンプトを使用する。
このような不一致が頻繁に発生するため(例えば GSM8K では 6 % しか発生しない)、ほとんどの場合、我々の手法は1ラウンドの推論しか行わず、遅延のオーバーヘッドを最小限に抑える。
複数の推論ベンチマークにわたる大規模な実験により、JointThinkingは数発の連鎖(CoT)を著しく上回り、回答の堅牢性を改善した多数決が実施されている。
さらに、トレーニングベースのSOTA法に匹敵する分散処理性能を達成し、分散処理タスクでは大幅に性能が向上する。
さらに, キャリブレーション機構の体系的解析を行い, 異なる推論モードを活用することにより, 誤差率を一定に低下させ, 構造的思考の多様性の価値を強調することを示した。
さらに、モデルのサイズが第2ラウンドで大きくなるにつれて、実際の推論と理想的な推論のパフォーマンスギャップが狭まり、我々のアプローチの強力なスケーラビリティが示される。
最後に,現在の制限について論じ,今後のRCLMにおけるICL研究の方向性について概説する。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
トレーニングを支援するため,GThinker-11Kの構築を行った。
論文 参考訳(メタデータ) (2025-06-01T16:28:26Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。