論文の概要: Metadata Predictability Is Not Evidence Dependence: An Intervention-Based Audit for Weak-Label Benchmarks
- arxiv url: http://arxiv.org/abs/2605.23701v1
- Date: Fri, 22 May 2026 14:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.396417
- Title: Metadata Predictability Is Not Evidence Dependence: An Intervention-Based Audit for Weak-Label Benchmarks
- Title(参考訳): メタデータ予測性は証拠依存ではない - 弱ラベルベンチマークのためのインターベンションベースの監査
- Authors: Kan Shao,
- Abstract要約: 弱ラベルベンチマークのプロトコルレベルテストについて検討する。
メタデータ統計(Metadata Prior Dominance Score:MPDS)とエビデンス・インターベンション統計(Evi)を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a protocol-level test for weak-label benchmarks: whether benchmark outputs change when the provided evidence is intervened on. Metadata-only shortcut checks answer a different question, namely whether outputs are predictable from metadata priors. We therefore combine a metadata statistic, the Metadata Prior Dominance Score (MPDS), with an evidence-intervention statistic, ΔEvi, measuring sensitivity to evidence identity under cross-item shuffling. Synthetic HotpotQA gives a constructed counterexample to metadata-only screening: MPDS is only moderate (0.643), yet ΔEvi is zero. Stronger-reader reruns show why calibration belongs in the test procedure: SNLI shows a calibration reversal, reconstructed HotpotQA occupies a question-dominant warning region, and FEVER is a strongly evidence-sensitive positive control across four transformers. The practical lesson is simple: benchmark audits should report metadata-only screening, evidence intervention, and reader-strength calibration together.
- Abstract(参考訳): 本稿では,弱ラベルベンチマークのプロトコルレベルテストについて検討する。
メタデータのみのショートカットチェックは、別の質問に答える。
したがって、メタデータ統計学、MPDS(Metadata Prior Dominance Score)とエビデンス・インターベンション統計学(ΔEvi)を組み合わせ、クロスイムシャッフルによる証拠識別に対する感度を測定する。
合成HotpotQAはメタデータのみのスクリーニングに対して構築された反例を与える: MPDSは中程度(0.643)であるが、ΔEviはゼロである。
SNLIはキャリブレーション逆転を示し、再構築されたHotpotQAは質問優先の警告領域を占め、FEVERは4つのトランスフォーマーにまたがる強い証拠に敏感な正の制御である。
ベンチマーク監査はメタデータのみのスクリーニング、エビデンス介入、読み取り強度の校正を報告すべきである。
関連論文リスト
- MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events [0.7685926099671206]
医療などの高度な領域における機械学習は、強力な予測性能と信頼性のある不確実性定量化を必要とする。
医療機器の異常事象報告から得られたMLTCベンチマークであるMADEを紹介する。
エントロピー/一貫性に基づく自己言語UQ手法を体系的に評価する。
論文 参考訳(メタデータ) (2026-04-16T16:28:16Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Memory in Large Language Models: Mechanisms, Evaluation and Evolution [8.158439933515131]
我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
論文 参考訳(メタデータ) (2025-09-23T10:06:58Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T16:25:41Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。