論文の概要: Cross-Model Disagreement as a Label-Free Correctness Signal
- arxiv url: http://arxiv.org/abs/2603.25450v1
- Date: Thu, 26 Mar 2026 13:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.317098
- Title: Cross-Model Disagreement as a Label-Free Correctness Signal
- Title(参考訳): ラベルなし誤り信号としてのクロスモデル診断
- Authors: Matt Gorbett, Suman Jana,
- Abstract要約: クロスモデル不一致は、既存の生産システムにドロップできる正確性指標である。
検証モデルからの生成は不要であり、正当性ラベルは不要である。
その結果、ラベルなしの正当性推定に対する実践的で訓練のないアプローチとして、クロスモデル不一致が確立された。
- 参考スコア(独自算出の注目度): 10.66607150500579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting when a language model is wrong without ground truth labels is a fundamental challenge for safe deployment. Existing approaches rely on a model's own uncertainty -- such as token entropy or confidence scores -- but these signals fail critically on the most dangerous failure mode: confident errors, where a model is wrong but certain. In this work we introduce cross-model disagreement as a correctness indicator -- a simple, training-free signal that can be dropped into existing production systems, routing pipelines, and deployment monitoring infrastructure without modification. Given a model's generated answer, cross-model disagreement computes how surprised or uncertain a second verifier model is when reading that answer via a single forward pass. No generation from the verifying model is required, and no correctness labels are needed. We instantiate this principle as Cross-Model Perplexity (CMP), which measures the verifying model's surprise at the generating model's answer tokens, and Cross-Model Entropy (CME), which measures the verifying model's uncertainty at those positions. Both CMP and CME outperform within-model uncertainty baselines across benchmarks spanning reasoning, retrieval, and mathematical problem solving (MMLU, TriviaQA, and GSM8K). On MMLU, CMP achieves a mean AUROC of 0.75 against a within-model entropy baseline of 0.59. These results establish cross-model disagreement as a practical, training-free approach to label-free correctness estimation, with direct applications in deployment monitoring, model routing, selective prediction, data filtering, and scalable oversight of production language model systems.
- Abstract(参考訳): 言語モデルが真実のラベルなしで間違っていることを検出することは、安全なデプロイメントの基本的な課題である。
既存のアプローチは、トークンのエントロピーや信頼スコアなど、モデル自身の不確実性に依存していますが、これらのシグナルは、最も危険な障害モード — モデルが間違っているが確実であるような、信頼性のあるエラー — で致命的に失敗します。
既存の運用システム、パイプライン、デプロイメント監視インフラストラクチャに変更なしでドロップ可能な、シンプルな、トレーニング不要な信号です。
モデルが生成した解が与えられた場合、クロスモデル不一致は、その解を1つのフォワードパスで読むとき、第2の検証モデルがどれほど驚くか、不確実かを計算します。
検証モデルからの生成は不要であり、正当性ラベルは不要である。
我々は、この原理を、生成モデルの応答トークンにおける検証モデルのサプライズを測定するCMP(Cross-Model Perplexity)と、それらの位置における検証モデルの不確実性を測定するCME(Cross-Model Entropy)とみなす。
CMPとCMEは、推論、検索、数学的問題解決(MMLU、TriviaQA、GSM8K)にまたがるベンチマークにおいて、モデル内の不確実性ベースラインを上回っている。
MMLUでは、CMPは0.75のAUROCをモデル内エントロピーベースラインの0.59に対して達成している。
これらの結果は、デプロイ監視、モデルルーティング、選択的予測、データフィルタリング、スケーラブルなプロダクション言語モデルシステムの監視といった、ラベルなしの正確性評価のための実践的でトレーニング不要なアプローチとして、クロスモデル不一致を確立している。
関連論文リスト
- Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems [0.0]
「マシーン学習評価尺度」は、全てのエラーが等価な離散的なコミットメントシステムであると仮定する。
信頼不正確」な振る舞いは、モデルが曖昧なデータの中で構造を幻覚させる場所である。
推論システムのための「Good Training」は、精度ではなく、Certainty-Validity Scoreの最大化によって定義されなければならない。
論文 参考訳(メタデータ) (2026-02-10T21:53:02Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption [4.664767161598515]
ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。
そこで本研究では,データ効率と性能の大幅な向上を図り,使い易いロールアウト機構を提案する。
論文 参考訳(メタデータ) (2024-05-29T11:53:07Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Model Assertions for Monitoring and Improving ML Models [26.90089824436192]
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。
モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。
本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
論文 参考訳(メタデータ) (2020-03-03T17:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。