論文の概要: AtomEval: Atomic Evaluation of Adversarial Claims in Fact Verification
- arxiv url: http://arxiv.org/abs/2604.07967v1
- Date: Thu, 09 Apr 2026 08:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.804381
- Title: AtomEval: Atomic Evaluation of Adversarial Claims in Fact Verification
- Title(参考訳): AtomEval: 事実検証における敵対的主張の原子的評価
- Authors: Hongyi Cen, Mingxin Wang, Yule Liu, Jingyi Zheng, Hanze Jia, Tan Tang, Yingcai Wu,
- Abstract要約: 敵のクレーム書き換えはファクトチェックシステムをテストするために広く使われているが、標準的なメトリクスは真理条件の整合性を捉えることができない。
AtomEvalは,クレームを主観的関連オブジェクト修飾子原子に分解する妥当性を考慮した評価フレームワークである。
- 参考スコア(独自算出の注目度): 25.78261493352423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial claim rewriting is widely used to test fact-checking systems, but standard metrics fail to capture truth-conditional consistency and often label semantically corrupted rewrites as successful. We introduce AtomEval, a validity-aware evaluation framework that decomposes claims into subject-relation-object-modifier (SROM) atoms and scores adversarial rewrites with Atomic Validity Scoring (AVS), enabling detection of factual corruption beyond surface similarity. Experiments on the FEVER dataset across representative attack strategies and LLM generators show that AtomEval provides more reliable evaluation signals in our experiments. Using AtomEval, we further analyze LLM-based adversarial generators and observe that stronger models do not necessarily produce more effective adversarial claims under validity-aware evaluation, highlighting previously overlooked limitations in current adversarial evaluation practices.
- Abstract(参考訳): 敵のクレーム書き換えはファクトチェックシステムをテストするために広く使われているが、標準的なメトリクスは真理条件の一貫性を捉えず、しばしば意味的に破損したリライトを成功としてラベル付けする。
本稿では,原子相関オブジェクト修飾器 (SROM) にクレームを分解し,原子価スコアリング (AVS) による敵の書き直しをスコアする妥当性評価フレームワークAtomEvalを紹介する。
代表的な攻撃戦略とLLMジェネレータをまたいだFEVERデータセットの実験は、AtomEvalが我々の実験でより信頼性の高い評価信号を提供することを示している。
AtomEvalを用いて、LLMベースの敵生成器を解析し、より強力なモデルが必ずしも妥当性を意識した評価の下でより効果的な敵のクレームを生成するとは限らないことを観察し、現在の敵のクレームにおいてこれまで見過ごされていた制限を強調した。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - When Benchmarks Leak: Inference-Time Decontamination for LLMs [4.071875179293035]
DeconIEPは入力埋め込み空間に小さな有界摂動を適用することにより、評価中に完全に動作する。
入力埋め込み空間に小さな有界摂動を適用することで、評価中に完全に動作する除染フレームワークであるDeconIEPを提案する。
論文 参考訳(メタデータ) (2026-01-27T08:19:40Z) - Scalable and Reliable Evaluation of AI Knowledge Retrieval Systems: RIKER and the Coherent Simulated Universe [0.0]
RIKER (Retrieval Intelligence and Knowledge extract Rating) は、パラダイムの逆転に基づくベンチマークであり、複製可能な方法論である。
このアプローチは、人間のアノテーションや参照モデルなしで決定論的スコアリングとスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2025-12-22T11:58:50Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination [18.05548914181797]
ベンチマークデータ汚染(BDC)-トレーニングセットにベンチマークテストサンプルを含めることで、LLM(Large Language Model)評価における懸念が高まった。
これを解決するために、研究者は既存のベンチマークを更新するための様々な緩和戦略を提案している。
従来の評価手法、例えば精度低下や精度のマッチングは、集計精度のみに焦点を合わせ、しばしば不完全あるいは誤解を招く結論に至る。
論文 参考訳(メタデータ) (2025-03-20T17:55:04Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation [46.59416831869014]
本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。
原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。
広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
論文 参考訳(メタデータ) (2024-08-06T16:28:30Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。