論文の概要: Justified or Just Convincing? Error Verifiability as a Dimension of LLM Quality
- arxiv url: http://arxiv.org/abs/2604.04418v1
- Date: Mon, 06 Apr 2026 04:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.093163
- Title: Justified or Just Convincing? Error Verifiability as a Dimension of LLM Quality
- Title(参考訳): 正当化か単に拘束か? LLMの品質の次元としての誤り検証可能性
- Authors: Xiaoyuan Zhu, Kimberly Le Truong, Riccardo Fogliato, Gokul Swamy, Weijian Zhang, Minglai Yang, Longtian Ye, Bangya Liu, Minghao Liu, Andrew Ilyas, Steven Wu,
- Abstract要約: モデル生成の正当化が、ユーザーが正しい回答を正しく区別するのに役立つかどうかに関して、標準的な手段は存在しない。
我々は、このアイデアを誤り検証可能性として形式化し、正当性によってレーダが解答正当性を正確に評価できるかどうかを測るバランスの取れた指標である$v_textbal$を提案する。
本稿では, 数学的推論のためのリフレクション・アンド・リフレーズ (RR) と, 事実QAのためのオラクル・リフレーズ (OR) の2つの手法を提案する。
- 参考スコア(独自算出の注目度): 24.614192550852277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs are deployed in high-stakes settings, users must judge the correctness of individual responses, often relying on model-generated justifications such as reasoning chains or explanations. Yet, no standard measure exists for whether these justifications help users distinguish correct answers from incorrect ones. We formalize this idea as error verifiability and propose $v_{\text{bal}}$, a balanced metric that measures whether justifications enable raters to accurately assess answer correctness, validated against human raters who show high agreement. We find that neither common approaches, such as post-training and model scaling, nor more targeted interventions recommended improve verifiability. We introduce two methods that succeed at improving verifiability: reflect-and-rephrase (RR) for mathematical reasoning and oracle-rephrase (OR) for factual QA, both of which improve verifiability by incorporating domain-appropriate external information. Together, our results establish error verifiability as a distinct dimension of response quality that does not emerge from accuracy improvements alone and requires dedicated, domain-aware methods to address.
- Abstract(参考訳): LLMは高精度な設定でデプロイされるため、ユーザーは個々の応答の正しさを判断し、しばしば推論チェーンや説明のようなモデル生成の正当性に依存する必要がある。
しかし、これらの正当化がユーザーが正しい回答を正しく区別するのに役立つかどうかの基準は存在しない。
我々は,この考え方を誤り検証可能性として定式化し,正当性を評価できるかどうかを測るバランスの取れた指標である$v_{\text{bal}}$を提案する。
ポストトレーニングやモデルスケーリングのような一般的なアプローチや、より標的とした介入は、検証可能性を改善することを推奨しない。
本稿では, 数学的推論のためのリフレクション・アンド・リフレーズ(RR)と, 事実QAのためのオラクル・リフレーズ(OR)の2つの手法を提案する。
その結果,精度の向上だけでは得られない応答品質の異なる次元として,エラー検証可能性を確立した。
関連論文リスト
- Verifiable Reasoning for LLM-based Generative Recommendation [106.7765000777685]
大規模言語モデル(LLM)における推論は、最近、生成的レコメンデーションの強化に強い可能性を示している。
本稿では,信頼性の高いフィードバックを提供するために,検証と推論をインターリーブする新しいTextbftextitreason-verify-recommendパラダイムを提案する。
4つの実世界のデータセットの実験は、VRecが効率を損なうことなく、推奨の有効性とスケーラビリティを大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-03-08T16:55:45Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。