Fugu-MT 論文翻訳(概要): Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

論文の概要: Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

arxiv url: http://arxiv.org/abs/2603.00070v1
Date: Tue, 10 Feb 2026 21:53:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 01:20:08.025464
Title: Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems
Title（参考訳）: 離散コミットシステムのための診断フレームワークCertainty-Validity
Authors: Datorien L. Anderson,
Abstract要約: 「マシーン学習評価尺度」は、全てのエラーが等価な離散的なコミットメントシステムであると仮定する。信頼不正確」な振る舞いは、モデルが曖昧なデータの中で構造を幻覚させる場所である。推論システムのための「Good Training」は、精度ではなく、Certainty-Validity Scoreの最大化によって定義されなければならない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Standard evaluation metrics for machine learning -- accuracy, precision, recall, and AUROC -- assume that all errors are equivalent: a confident incorrect prediction is penalized identically to an uncertain one. For discrete commitment systems (architectures that select committed states {-W, 0, +W}), this assumption is epistemologically flawed. We introduce the Certainty-Validity (CVS) Framework, a diagnostic method that decomposes model performance into a 2x2 matrix distinguishing high/low certainty from valid/invalid predictions. This framework reveals a critical failure mode hidden by standard accuracy: Confident-Incorrect (CI) behavior, where models hallucinate structure in ambiguous data. Through ablation experiments on Fashion-MNIST, EMNIST, and IMDB, we analyze the "83% Ambiguity Ceiling" -- a stopping point where this specific discrete architecture consistently plateaus on noisy benchmarks. Unlike continuous models that can surpass this ceiling by memorizing texture or statistical noise, the discrete model refuses to commit to ambiguous samples. We show that this refusal is not a failure but a feature: the model stops where structural evidence ends. However, standard training on ambiguous data eventually forces Benign Overfitting, causing a pathological migration from Uncertain-Incorrect (appropriate doubt) to Confident-Incorrect (hallucination). We propose that "good training" for reasoning systems must be defined not by accuracy, but by maximizing the Certainty-Validity Score (CVS) -- ensuring the model knows where to stop.
Abstract（参考訳）: 機械学習の標準的な評価指標 -- 精度、精度、リコール、AUROC -- は、すべてのエラーが等価であると仮定する。離散的なコミットメント系(コミット状態 {-W, 0, +W} を選択する構造)に対して、この仮定は認識論的に欠陥がある。本稿では,モデル性能を2x2行列に分解する診断手法であるCertainty-Validity (CVS) Frameworkを紹介する。このフレームワークは、標準的な精度で隠されたクリティカルな障害モードを明らかにしている。 Fashion-MNIST、EMNIST、IMDBのアブレーション実験を通じて、“83%のAmbiguity Ceiling”を分析します。テクスチャや統計ノイズを記憶することで天井を越えられる連続モデルとは異なり、離散モデルはあいまいなサンプルへのコミットを拒否する。この拒絶は失敗ではなく特徴であり、構造的証拠が終わるところをモデルが停止することを示している。しかし、あいまいなデータに関する標準的な訓練は、最終的にベニグニ・オーバーフィッティングを強制し、不確実不正確(適切な疑念)から確証不正確(幻覚)へと病理学的に移行した。推論システムのための“優れたトレーニング”は、精度ではなく、CVS(Certainty-Validity Score)の最大化によって定義されなければなりません。

関連論文リスト

Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文参考訳（メタデータ） (2026-02-04T18:39:58Z)
LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文参考訳（メタデータ） (2025-12-01T11:27:09Z)
The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文参考訳（メタデータ） (2025-11-06T14:46:35Z)
Error-Driven Uncertainty Aware Training [7.702016079410588]
Error-Driven Uncertainty Aware Trainingは、ニューラル分類器が不確実性を正確に推定する能力を高めることを目的としている。 EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく予測されているか、あるいは正しく予測されているかによって、2つの損失関数を選択的に使用することによって機能する。画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
論文参考訳（メタデータ） (2024-05-02T11:48:14Z)
Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文参考訳（メタデータ） (2023-07-05T10:33:45Z)
The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文参考訳（メタデータ） (2022-11-11T19:34:17Z)
Reliability-Aware Prediction via Uncertainty Learning for Person Image Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文参考訳（メタデータ） (2022-10-24T17:53:20Z)
Evaluating Aleatoric Uncertainty via Conditional Generative Models [15.494774321257939]
本研究では,アレータティック不確実性推定のための条件生成モデルについて検討する。本稿では,2つの条件分布間の差を測定するための2つの指標を提案する。我々は,我々の測定値が条件分布の相違を正確に測定する方法を数値的に示す。
論文参考訳（メタデータ） (2022-06-09T05:39:04Z)
Dense Uncertainty Estimation via an Ensemble-based Conditional Latent Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文参考訳（メタデータ） (2021-11-22T08:54:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。