論文の概要: Lexical Hints of Accuracy in LLM Reasoning Chains
- arxiv url: http://arxiv.org/abs/2508.15842v1
- Date: Tue, 19 Aug 2025 18:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.111678
- Title: Lexical Hints of Accuracy in LLM Reasoning Chains
- Title(参考訳): LLM共振鎖のレキシカルヒント精度
- Authors: Arne Vanhoyweghen, Brecht Verbeken, Andres Algaba, Vincent Ginis,
- Abstract要約: コード、数学、一般知識ベンチマークの全体的なパフォーマンスを継続的に向上させるモデルを生成する前に、補修学習とCoT(Chain-of-Thought)を明示的に生成する大規模言語モデル(LLM)。
ここでは、COTの計測可能な性質がLLMの内部信頼度を信頼性の高い信号として提供するかどうかを検証する。
CoT内の不確実性指標は、高信頼マーカーよりも一貫して健全であり、正しい応答よりもエラーを予測しやすくする。
- 参考スコア(独自算出の注目度): 4.424680117690851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning Large Language Models (LLMs) with reinforcement learning to produce an explicit Chain-of-Thought (CoT) before answering produces models that consistently raise overall performance on code, math, and general-knowledge benchmarks. However, on benchmarks where LLMs currently achieve low accuracy, such as Humanity's Last Exam (HLE), they often report high self-confidence, reflecting poor calibration. Here, we test whether measurable properties of the CoT provide reliable signals of an LLM's internal confidence in its answers. We analyze three feature classes: (i) CoT length, (ii) intra-CoT sentiment volatility, and (iii) lexicographic hints, including hedging words. Using DeepSeek-R1 and Claude 3.7 Sonnet on both Humanity's Last Exam (HLE), a frontier benchmark with very low accuracy, and Omni-MATH, a saturated benchmark of moderate difficulty, we find that lexical markers of uncertainty (e.g., $\textit{guess}$, $\textit{stuck}$, $\textit{hard}$) in the CoT are the strongest indicators of an incorrect response, while shifts in the CoT sentiment provide a weaker but complementary signal. CoT length is informative only on Omni-MATH, where accuracy is already high ($\approx 70\%$), and carries no signal on the harder HLE ($\approx 9\%$), indicating that CoT length predicts correctness only in the intermediate-difficulty benchmarks, i.e., inside the model's demonstrated capability, but still below saturation. Finally, we find that uncertainty indicators in the CoT are consistently more salient than high-confidence markers, making errors easier to predict than correct responses. Our findings support a lightweight post-hoc calibration signal that complements unreliable self-reported probabilities and supports safer deployment of LLMs.
- Abstract(参考訳): コード、数学、一般知識ベンチマークの全体的なパフォーマンスを継続的に向上させるモデルを生成する前に、補修学習とCoT(Chain-of-Thought)を明示的に生成する大規模言語モデル(LLM)。
しかし、HLE(Humanity's Last Exam)のようなLLMが現在低い精度を達成しているベンチマークでは、キャリブレーションの低下を反映して高い自己自信を報告していることが多い。
ここでは、COTの計測可能な性質がLLMの内部信頼度を信頼性の高い信号として提供するかどうかを検証する。
3つの特徴クラスを分析します。
(i)CoT長さ
(II)CoT内感情変動,及び
(三)ヘッジワードを含む語彙的ヒント
DeepSeek-R1 と Claude 3.7 Sonnet は、非常に精度の低いフロンティアベンチマークである Humanity's Last Exam (HLE) と、適度な難易度を示す飽和ベンチマークである Omni-MATH の両方で、CoT の語彙的マーカー (例えば、$\textit{guess}$, $\textit{stuck}$, $\textit{hard}$) が誤った応答の最も強い指標であるのに対して、CoT の感情の変化は弱いが相補的な信号を提供する。
CoT長はOmni-MATHでのみ通知されるが、精度がすでに高い(\approx 70\%$)ため、より難しいHLE(\approx 9\%$)のシグナルは持っていない。
最後に、CoTにおける不確実性指標は、高信頼マーカーよりも一貫して健全であり、正しい応答よりもエラーを予測しやすくする。
我々の研究は、信頼性の低い自己申告確率を補完する軽量なポストホックキャリブレーション信号をサポートし、LLMのより安全な展開を支援する。
関連論文リスト
- Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty? [46.28794610965004]
大規模言語モデル(LLM)は、ハイテイクなドメインでますます使われている。
LLMが本質的な信頼を反映するためにこれらのマーカーを一貫して使用しているかどうかは不明だ。
まず,モデルがてんかんマーカーを用いた場合のマーカー信頼度を観測精度として定義する。
以上の結果から,マーカーは同じ分布内ではよく一般化するが,分布外シナリオでは信頼性に矛盾が認められた。
論文 参考訳(メタデータ) (2025-05-30T16:41:24Z) - Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。
我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。
また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。