論文の概要: Certainty robustness: Evaluating LLM stability under self-challenging prompts
- arxiv url: http://arxiv.org/abs/2603.03330v1
- Date: Tue, 10 Feb 2026 18:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.158688
- Title: Certainty robustness: Evaluating LLM stability under self-challenging prompts
- Title(参考訳): 確実性ロバスト性:自己整合性プロンプト下でのLCM安定性の評価
- Authors: Mohammadreza Saadat, Steve Nemzer,
- Abstract要約: 大規模言語モデル(LLM)は、確実性や真実を推論する明確なメカニズムが欠如しているにもかかわらず、高い自信を持って答えを提示することが多い。
本稿では,LLMの安定性と適応性のバランス性を評価するための2ターン評価フレームワークであるCertainty Robustness Benchmarkを紹介する。
我々はLiveBenchの200の推論と数学の質問を用いて、4つの最先端LCMを評価し、正当性のある自己補正と正当性のない答えの変化を区別する。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often present answers with high apparent confidence despite lacking an explicit mechanism for reasoning about certainty or truth. While existing benchmarks primarily evaluate single-turn accuracy, truthfulness or confidence calibration, they do not capture how models behave when their responses are challenged in interactive settings. We introduce the Certainty Robustness Benchmark, a two-turn evaluation framework that measures how LLMs balance stability and adaptability under self-challenging prompts such as uncertainty ("Are you sure?") and explicit contradiction ("You are wrong!"), alongside numeric confidence elicitation. Using 200 reasoning and mathematics questions from LiveBench, we evaluate four state-of-the-art LLMs and distinguish between justified self-corrections and unjustified answer changes. Our results reveal substantial differences in interactive reliability that are not explained by baseline accuracy alone: some models abandon correct answers under conversational pressure, while others demonstrate strong resistance to challenge and better alignment between confidence and correctness. These findings identify certainty robustness as a distinct and critical dimension of LLM evaluation, with important implications for alignment, trustworthiness and real-world deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、確実性や真実を推論する明確なメカニズムが欠如しているにもかかわらず、高い自信を持って答えを提示することが多い。
既存のベンチマークは、主にシングルターン精度、真理性、信頼性のキャリブレーションを評価するが、インタラクティブな設定では、モデルがどのように振る舞うかを捉えない。
これは、LLMが不確実性("Are sure?")や明示的な矛盾("You are wrong!
我々はLiveBenchの200の推論と数学の質問を用いて、4つの最先端LCMを評価し、正当性のある自己補正と正当性のない答えの変化を区別する。
いくつかのモデルは会話の圧力下で正しい答えを放棄するが、他のモデルは挑戦に対する強い抵抗を示し、信頼性と正しさの整合性が向上する。
これらの結果から, 確実性はLCM評価の明確かつ重要な次元であり, 整合性, 信頼性, 実世界の展開に重要な意味を持つことが明らかとなった。
関連論文リスト
- Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models [28.62988505317048]
大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示す。
LLMは、質問されたときに過度に疑念を抱きがちである一方で、最初の回答において、頑強に過度に自信を抱くように見える。
LLMは選択支援バイアスを顕著に示し、回答に対する信頼度を補強し、向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T18:57:43Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。