論文の概要: Epistemic Observability in Language Models
- arxiv url: http://arxiv.org/abs/2603.20531v1
- Date: Fri, 20 Mar 2026 21:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.955891
- Title: Epistemic Observability in Language Models
- Title(参考訳): 言語モデルにおけるてんかんの可観測性
- Authors: Tony Mason,
- Abstract要約: 製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We find that models report highest confidence precisely when they are fabricating. Across four model families (OLMo-3, Llama-3.1, Qwen3, Mistral), self-reported confidence inversely correlates with accuracy, with AUC ranging from 0.28 to 0.36 where 0.5 is random guessing. We prove, under explicit formal assumptions, that this is not a capability gap but an observational one. Under text-only observation, where a supervisor sees only the model's output text, no monitoring system can reliably distinguish honest model outputs from plausible fabrications. We prove two results: first, that any policy conditioning only on the query cannot satisfy epistemic honesty across ambiguous world states; second, that no learning algorithm optimizing reward from a text-only supervisor can converge to honest behavior when the supervisor's observations are identical for both grounded and fabricated responses. Within our formal model, these impossibilities hold regardless of model scale or training procedure, including RLHF and instruction tuning. We construct a tensor interface that escapes the impossibility by exporting computational byproducts (per-token entropy and log-probability distributions) that are structurally coupled to correctness under standard training. Per-token entropy achieves pooled AUC 0.757, outperforming all text baselines by 2.5--3.9 percentage points at every budget level tested (10\%, 20\%, 30\%). The entropy signal generalizes across architectures (Spearman $ρ= 0.762$). The core contribution is a cost surface where the empirical mapping from verification budget (fraction of queries receiving expensive checks) to detection accuracy for each judge strategy is a practical lookup for system builders deciding how to allocate verification resources. The contribution is the map. The territory is the system you are building.
- Abstract(参考訳): 製造時に高い信頼性を報告できるモデルがあることがわかりました。
4つのモデルファミリー(OLMo-3, Llama-3.1, Qwen3, Mistral)にまたがって、自己報告された信頼度は逆相関し、AUCは0.28から0.36の範囲で、0.5はランダムな推測である。
明示的な公式な仮定の下では、これは能力ギャップではなく観察的なギャップであることを示す。
テキストのみの観察では、監督者がモデルの出力テキストのみを見ることができるが、モニタリングシステムでは、信頼できるモデル出力と可視な製造とを確実に区別できない。
第二に、テキストのみの監督者からの報酬を最適化する学習アルゴリズムは、監督者の観察が、接地された応答と製造された応答の両方で同一である場合に、誠実な行動に収束することができない。
我々の形式モデルでは、これらの不確実性は、RLHFや命令チューニングを含むモデルスケールや訓練手順によらず保持される。
本研究では,計算副産物(対数エントロピーおよび対数確率分布)を輸出することにより,非可逆性から逃れるテンソルインタフェースを構築する。
パートーケンエントロピーはAUC 0.757のプーリングを達成し、テストされた全ての予算レベルで全テキストベースラインを2.5~3.9ポイント(10\%、20\%、30\%)上回る。
エントロピー信号はアーキテクチャ全体にわたって一般化される(Spearman $ρ = 0.762$)。
コアコントリビューションは、検証予算(高価なチェックを受けるクエリのフレーム)から、各審査戦略の精度を検出するための実証的なマッピングが、検証リソースの割り当て方法を決定するシステムビルダーの実践的なルックアップとなるコスト面である。
貢献は地図です。
ドメインはあなたが構築しているシステムです。
関連論文リスト
- Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models [0.7919969809015935]
時間的根拠に基づく信念を維持するモデルはより一般化されていることを示す。
我々はこれを長い地平線上での行動的忠実さとして定式化する。
時間的接地品質がロバスト性の主要な指標であることを示す。
論文 参考訳(メタデータ) (2026-03-06T19:43:26Z) - Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems [0.0]
「マシーン学習評価尺度」は、全てのエラーが等価な離散的なコミットメントシステムであると仮定する。
信頼不正確」な振る舞いは、モデルが曖昧なデータの中で構造を幻覚させる場所である。
推論システムのための「Good Training」は、精度ではなく、Certainty-Validity Scoreの最大化によって定義されなければならない。
論文 参考訳(メタデータ) (2026-02-10T21:53:02Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Certifiably Robust Model Evaluation in Federated Learning under Meta-Distributional Shifts [8.700087812420687]
異なるネットワーク "B" 上でモデルの性能を保証する。
我々は、原則付きバニラDKWバウンダリが、同じ(ソース)ネットワーク内の未確認クライアント上で、モデルの真のパフォーマンスの認証を可能にする方法を示す。
論文 参考訳(メタデータ) (2024-10-26T18:45:15Z) - Gaussian Process Probes (GPP) for Uncertainty-Aware Probing [61.91898698128994]
モデルによって表現される概念に関する不確実性を探索し、測定するための統一的でシンプルなフレームワークを導入する。
実験の結果,(1)ごく少数の例でも,モデルの概念表現を探索し,(2)認識の不確実性(プローブがどの程度確実か)と解離不確実性(モデルがファジィか)を正確に測定し,(3)これらの不確実性尺度と古典的手法を用いて分布データの検出を行うことができた。
論文 参考訳(メタデータ) (2023-05-29T17:00:16Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Certifiable 3D Object Pose Estimation: Foundations, Learning Models, and
Self-Training [23.802602957611676]
証明可能なオブジェクトのポーズ推定の問題を考えると、オブジェクトの部分的な点クラウドが与えられた場合、その目標は、その結果の見積もりに対して正当性を示す証明書を提供することである。
セマンティックキーポイントに基づくポーズ推定モデルであるC-3POを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。