論文の概要: The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models
- arxiv url: http://arxiv.org/abs/2512.23850v1
- Date: Mon, 29 Dec 2025 20:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.203516
- Title: The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models
- Title(参考訳): ドリルダウン・ファブリケートテスト(DDFT) : 言語モデルにおけるてんかん性ロバスト性測定のためのプロトコル
- Authors: Rahul Baxi,
- Abstract要約: 現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
本稿では,ロバスト性を測定するプロトコルであるDrill-Down Fabricate Test (DDFT)を紹介する。
フラッグシップモデルはスケールにもかかわらず脆さを示すのに対して、小さなモデルは堅牢なパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current language model evaluations measure what models know under ideal conditions but not how robustly they know it under realistic stress. Static benchmarks like MMLU and TruthfulQA cannot distinguish a model that lacks knowledge from one whose verification mechanisms collapse when information degrades or adversaries probe for weaknesses. We introduce the Drill-Down and Fabricate Test (DDFT), a protocol that measures epistemic robustness: a model's ability to maintain factual accuracy under progressive semantic compression and adversarial fabrication. We propose a two-system cognitive model comprising a Semantic System that generates fluent text and an Epistemic Verifier that validates factual accuracy. Our findings, based on evaluating 9 frontier models across 8 knowledge domains at 5 compression levels (1,800 turn-level evaluations), reveal that epistemic robustness is orthogonal to conventional design paradigms. Neither parameter count (r=0.083, p=0.832) nor architectural type (r=0.153, p=0.695) significantly predicts robustness, suggesting it emerges from training methodology and verification mechanisms distinct from current approaches. Error detection capability strongly predicts overall robustness (rho=-0.817, p=0.007), indicating this is the critical bottleneck. We find that flagship models exhibit brittleness despite their scale, while smaller models can achieve robust performance, challenging assumptions about the relationship between model size and reliability. The DDFT framework provides both theoretical foundation and practical tools for assessing epistemic robustness before deployment in critical applications.
- Abstract(参考訳): 現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
MMLUやTruthfulQAのような静的ベンチマークでは、情報の劣化や敵が弱点を調査する際に検証メカニズムが崩壊するモデルと知識の欠如が区別できない。
本稿では,進行的意味的圧縮と対向的生成の下での事実的正確性を維持するためのモデルとして,てんかんの堅牢性を測定するプロトコルであるDrill-Down and Fabricate Test(DDFT)を紹介する。
本稿では,流動的な文章を生成するセマンティック・システムと,事実の正確性を検証する疫学的検証器からなる2系統認知モデルを提案する。
その結果,8つの知識領域にまたがる9つのフロンティアモデルを5つの圧縮レベル(1,800ターンレベル評価)で評価した結果,従来の設計パラダイムと直交していることが判明した。
パラメータカウント (r=0.083, p=0.832) もアーキテクチャタイプ (r=0.153, p=0.695) も、ロバスト性を著しく予測せず、現在のアプローチとは異なるトレーニング方法論や検証機構から現れることを示唆している。
エラー検出能力は、全体的な堅牢性(rho=-0.817, p=0.007)を強く予測し、これが重要なボトルネックであることを示す。
フラッグシップモデルは規模に関わらず脆さを示すのに対して,より小さなモデルは堅牢なパフォーマンスを実現し,モデルサイズと信頼性の関係に関する仮定に挑戦する。
DDFTフレームワークは、重要なアプリケーションにデプロイする前に、てんかんの堅牢性を評価するための理論的基礎と実践的なツールを提供する。
関連論文リスト
- Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric [49.393713730706445]
汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。
本稿では,ロバストネスアライメントスコア(RAS)を提案する。
論文 参考訳(メタデータ) (2025-11-24T12:07:56Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Is it the model or the metric -- On robustness measures of deeplearning models [2.8169948004297565]
ディープフェイク検出の文脈におけるロバスト精度(RA)の正当性について再検討する。
本稿では, RAとRRの比較を行い, モデル間の類似のRAにもかかわらず, モデルが異なる許容レベル(摂動レベル)でRRが変化することを示した。
論文 参考訳(メタデータ) (2024-12-13T02:26:58Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Unifying Model Explainability and Robustness for Joint Text
Classification and Rationale Extraction [11.878012909876713]
そこで我々は,AT-BMCという共同分類と合理的抽出モデルを提案する。
混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。
ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-20T09:48:32Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。