論文の概要: Deep Think with Confidence
- arxiv url: http://arxiv.org/abs/2508.15260v1
- Date: Thu, 21 Aug 2025 05:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.197843
- Title: Deep Think with Confidence
- Title(参考訳): 信頼と深い思考
- Authors: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao,
- Abstract要約: 私たちはDeep Think with Conf(DeepConf)という,テスト時の推論効率とパフォーマンスを両立させる,シンプルかつ強力な手法を紹介します。
DeepConfはモデル内部信頼信号を利用して、生成時または生成後の低品質な推論トレースを動的にフィルタリングする。
我々は、さまざまな推論タスクと、Qwen 3やGPT-OSSシリーズを含む最新のオープンソースモデルでDeepConfを評価した。
- 参考スコア(独自算出の注目度): 33.167060610014715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead. To address these challenges, we introduce Deep Think with Confidence (DeepConf), a simple yet powerful method that enhances both reasoning efficiency and performance at test time. DeepConf leverages model-internal confidence signals to dynamically filter out low-quality reasoning traces during or after generation. It requires no additional model training or hyperparameter tuning and can be seamlessly integrated into existing serving frameworks. We evaluate DeepConf across a variety of reasoning tasks and the latest open-source models, including Qwen 3 and GPT-OSS series. Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full parallel thinking.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自己整合性や多数決によるテストタイムスケーリングを通じてタスクを推論する大きな可能性を示しています。
しかし、このアプローチは多くの場合、精度と高い計算オーバーヘッドのリターンを低下させる。
これらの課題に対処するために、テスト時の推論効率とパフォーマンスを両立させるシンプルで強力な方法であるDeep Think with Conf(DeepConf)を紹介します。
DeepConfはモデル内部信頼信号を利用して、生成時または生成後の低品質な推論トレースを動的にフィルタリングする。
追加のモデルトレーニングやハイパーパラメータチューニングは必要とせず、既存のサービスフレームワークにシームレスに統合できる。
我々は、さまざまな推論タスクと、Qwen 3やGPT-OSSシリーズを含む最新のオープンソースモデルでDeepConfを評価した。
特に、AIME 2025のような挑戦的なベンチマークでは、DeepConf@512は99.9%の精度を達成し、完全な並列思考に比べて最大84.7%のトークンを生成する。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - Dynamic Early Exit in Reasoning Models [13.982812528756504]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Efficient Test-Time Scaling via Self-Calibration [18.32718448734639]
多数決によるBest-of-NサンプリングとSelf-Consistencyは単純かつ効果的だが、各クエリに対して一定の数のサンプリングレスポンスが必要である。
これは、より単純な問題に対する無駄な計算と、より困難な問題に対する不十分な探索をもたらす可能性がある。
反応のモデル信頼性は、テスト時間スケーリングの効率向上に有効である、と我々は主張する。
論文 参考訳(メタデータ) (2025-02-25T00:21:14Z) - Local Competition and Uncertainty for Adversarial Robustness in Deep
Learning [6.4649419408439766]
この研究は、新しい学習理論を用いて、ディープ・ネットワークの敵対的堅牢性に対処しようとするものである。
神経科学の結果に触発されて,逆行学習の手段として,局所的な競争原理を提案する。
提案モデルでは,最先端のホワイトボックス攻撃を実現すると同時に,その良質な精度を高い精度で維持する。
論文 参考訳(メタデータ) (2020-06-18T15:41:11Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。