論文の概要: Trace Length is a Simple Uncertainty Signal in Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.10409v1
- Date: Sun, 12 Oct 2025 02:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.925395
- Title: Trace Length is a Simple Uncertainty Signal in Reasoning Models
- Title(参考訳): 共鳴モデルにおけるトレース長は単純な不確かさ信号である
- Authors: Siddartha Devic, Charlotte Peale, Arwen Bradley, Sinead Williamson, Preetum Nakkiran, Aravind Gollakota,
- Abstract要約: 推理トレース長は大きな推理モデルにおいて有用な信頼度推定器であることを示す。
我々の研究は、学習後の推論がトレース長と精度の関係を根本的に変えることを明らかにしている。
高エントロピーや「フォーク」トークンはメカニズムにおいて重要な役割を担っていると認識する。
- 参考スコア(独自算出の注目度): 18.432200654999082
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Uncertainty quantification for LLMs is a key research direction towards addressing hallucination and other issues that limit their reliable deployment. In this work, we show that reasoning trace length is a simple and useful confidence estimator in large reasoning models. Through comprehensive experiments across multiple models, datasets, and prompts, we show that trace length performs in comparable but complementary ways to other zero-shot confidence estimators such as verbalized confidence. Our work reveals that reasoning post-training fundamentally alters the relationship between trace length and accuracy, going beyond prior work that had shown that post-training causes traces to grow longer in general (e.g., "overthinking"). We investigate the mechanisms behind trace length's performance as a confidence signal, observing that the effect remains even after adjusting for confounders such as problem difficulty and GRPO-induced length bias. We identify high-entropy or "forking" tokens as playing a key role in the mechanism. Our findings demonstrate that reasoning post-training enhances uncertainty quantification beyond verbal expressions, and establish trace length as a practical confidence measure for large reasoning models.
- Abstract(参考訳): LLMの不確実性定量化は、幻覚などの信頼性の高い展開を制限する問題に対処するための重要な研究方向である。
本研究では,大規模推論モデルにおいて,トレース長の推論は単純かつ有用な信頼度推定器であることを示す。
複数のモデル、データセット、プロンプトにわたる総合的な実験を通して、トレース長は、言語化された信頼度などの他のゼロショット信頼度推定器と同等だが相補的な方法で実行されることを示す。
我々の研究は、ポストトレーニング後の推論がトレース長と精度の関係を根本的に変え、ポストトレーニング後のトレースが一般的に長く成長することを示す以前の研究(例:「過剰思考」)を超えたことを明らかにしている。
信頼性信号としてのトレース長性能のメカニズムを考察し,問題難易度やGRPO誘発長偏差などの共同創設者の調整後においても効果が持続することを示した。
高エントロピーや「フォーク」トークンはメカニズムにおいて重要な役割を担っていると認識する。
本研究は,学習後の推論が言語表現以外の不確かさの定量化を促進することを示し,大規模推論モデルの実用的信頼度尺度としてトレース長を確立した。
関連論文リスト
- From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models [29.95434387343843]
本稿では,3つのコンポーネントによる長さバイアスを緩和する統合フレームワークを提案する。
CoLDは一貫して報酬長相関を減少させ、ステップ選択の精度を改善し、より簡潔で論理的に妥当な推論を促進する。
論文 参考訳(メタデータ) (2025-07-21T15:07:59Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs [3.2228025627337864]
質問応答(QA)タスクにおける自己報告された言語信頼度を分析して,DeepSeek R1-32Bの不確実性の原因について検討した。
我々はDeepSeekに、最終回答の前に長い連鎖を強制することで、その分布を探求する予算を与えることで、その言語スコアの有効性を大幅に改善することを示します。
論文 参考訳(メタデータ) (2025-05-28T17:01:30Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。