論文の概要: Evidence Absence Is Not Evidence Insufficiency: Diagnosing NEI Construction Artifacts in Fact Verification
- arxiv url: http://arxiv.org/abs/2605.26663v1
- Date: Tue, 26 May 2026 07:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.73966
- Title: Evidence Absence Is Not Evidence Insufficiency: Diagnosing NEI Construction Artifacts in Fact Verification
- Title(参考訳): Evidence Absence is not Evidence Insufficency: Diagnosing NEI Construction Artifacts in Fact Verification
- Authors: Jingxi Qiu, Zeyu Han, Cheng Huang,
- Abstract要約: 不十分な証拠評価のための構築対応診断プロトコルNEI-CAPについて紹介する。
我々は、FEVERとHoVerを境界外部制御として、SciFactスタイルの科学的検証でプロトコルをインスタンス化する。
- 参考スコア(独自算出の注目度): 6.604874054866016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evidence absence is not evidence insufficiency, but fact verification benchmarks can make them observationally similar. The Not Enough Information (NEI) label is often operationalized through different evidence conditions, and that choice silently determines what a verifier learns and what its score can hide. We introduce NEI-CAP, a construction-aware diagnostic protocol for insufficient-evidence evaluation. Each NEI example carries the construction family that produced it; NEI-CAP audits shortcut cues, validates hard cases through human adjudication, and tests whether competence transfers across constructions. We instantiate the protocol in SciFact-style scientific verification, with FEVER and HoVer as bounded external controls. Across these settings, NEI competence does not transfer reliably: models trained on shortcut-prone constructions fail to recognize semantically related insufficient evidence, and mixed-construction training narrows but does not close the gap. Fixed-claim diagnostics further show that the evidence condition shifts confidence in the reference Support/Refute label, not only NEI recall, so an aggregate NEI score can hide which problem a model has actually solved.
- Abstract(参考訳): 証拠の欠如は証拠不十分というわけではないが、事実検証のベンチマークは観察的に類似している。
Not Enough Information (NEI) ラベルは、しばしば異なるエビデンス条件によって運用され、その選択は、検証者が何を学んだか、そのスコアが隠せるかを静かに決定する。
不十分な証拠評価のための構築対応診断プロトコルNEI-CAPについて紹介する。
NEI-CAPはショートカットの手順を監査し、人間の判断を通じてハードケースを検証し、コンピテンス転送が建設全体にわたって行われるかどうかをテストする。
我々は、FEVERとHoVerを境界外部制御として、SciFactスタイルの科学的検証でプロトコルをインスタンス化する。
これらの設定全体では、NEIの能力は確実に伝達されない:ショートカット・プロンな構造で訓練されたモデルは意味的に関係のない証拠を認識できず、混合構成の訓練は狭くなりますが、ギャップを埋めません。
固定評価診断は、証拠条件が、NEIリコールだけでなく、参照サポート/リフュートラベルの信頼性をシフトすることを示し、集合NEIスコアは、モデルが実際に解決した問題を隠すことができる。
関連論文リスト
- AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora [6.956097396264084]
AuthTraceは,主題的に密集した単一著者コーパスに基づいて構築された診断ベンチマークである。
AuthTraceは明示的な引用されたエビデンス、正確なファンインアノテーション、エビデンスリコール、エビデンス精度、答えの正当性を測定する統一パックレベルのプロトコルを提供する。
論文 参考訳(メタデータ) (2026-05-25T03:10:52Z) - Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction [4.273094752480624]
本稿では,対話的証明理論に基づく推論時間プロトコルであるPVDを導入する。
PVDは回答と構造化された信頼判定の両方を生成し、システムは不確実なケースを棄却しながら高信頼の回答を報告できる。
論文 参考訳(メタデータ) (2026-05-24T15:23:27Z) - When Verification Fails: How Compositionally Infeasible Claims Escape Rejection [30.404615085122046]
既存の検証ベンチマークでは,厳密なクレーム検証と簡易な塩分制約依存を区別できないことを示す。
有意な制約が支持されるが、非有意な制約が矛盾する場合に、構成的に不可能なクレームを構築する。
モデル間の差は,基礎的推論能力よりも検証しきい値の差を反映していることを示す。
論文 参考訳(メタデータ) (2026-04-13T04:48:20Z) - Case-Grounded Evidence Verification: A Framework for Constructing Evidence-Sensitive Supervision [1.7044563989708406]
ケースグラウンドによる証拠検証を導入する。
得られたサポートタスクに対して標準検証器をトレーニングする。
結果は、根拠となる証拠の大きなボトルネックは、モデル能力だけでなく、監督の欠如にあることを示唆している。
論文 参考訳(メタデータ) (2026-04-10T17:55:38Z) - VIBEPASS: Can Vibe Coders Really Pass the Vibe Check? [46.85901599242161]
emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。
故障対象推論は一般的な符号化能力ではスケールしないことがわかった。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
論文 参考訳(メタデータ) (2026-03-16T21:14:28Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。
EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。
本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文 参考訳(メタデータ) (2025-10-13T11:11:46Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Semantic or Covariate? A Study on the Intractable Case of Out-of-Distribution Detection [70.57120710151105]
ID分布のセマンティック空間をより正確に定義する。
また,OOD と ID の区別性を保証する "Tractable OOD" の設定も定義する。
論文 参考訳(メタデータ) (2024-11-18T03:09:39Z) - Evidence Tampering and Chain of Custody in Layered Attestations [0.0]
分散システムにおいて、信頼決定は、遠隔検定によって生成される完全性証明に基づいて行われる。
提案手法は, 証拠が検出されることなく, 証拠を改ざんできる「戦略」を改ざんするだけでなく, 証拠を改ざんするための全ての改ざん機会を識別するアルゴリズムを提案する。
当社の取り組みは,プロトコル設計者が可能な限り最小かつ信頼性の高いコンポーネントの集合に機会を阻害する証拠を減らすことを支援することを目的としています。
論文 参考訳(メタデータ) (2024-01-31T21:54:53Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。