論文の概要: Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking
- arxiv url: http://arxiv.org/abs/2411.05375v1
- Date: Fri, 08 Nov 2024 07:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.698957
- Title: Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking
- Title(参考訳): Ev2R: 自動Fact-Checkingにおけるエビデンス検索の評価
- Authors: Mubashara Akhtar, Michael Schlichtkrull, Andreas Vlachos,
- Abstract要約: Ev2Rは自動ファクトチェック(AFC)の評価フレームワークである
これはエビデンス評価のための3つのアプローチ(参照ベース、プロキシ参照、参照なし)で構成されている。
本研究は, 人体評価と対人テストとの一致により, 有効性を評価した。
- 参考スコア(独自算出の注目度): 11.300523252168327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current automated fact-checking (AFC) approaches commonly evaluate evidence either implicitly via the predicted verdicts or by comparing retrieved evidence with a predefined closed knowledge source, such as Wikipedia. However, these methods suffer from limitations, resulting from their reliance on evaluation metrics developed for different purposes and constraints imposed by closed knowledge sources. Recent advances in natural language generation (NLG) evaluation offer new possibilities for evidence assessment. In this work, we introduce Ev2R, an evaluation framework for AFC that comprises three types of approaches for evidence evaluation: reference-based, proxy-reference, and reference-less. We evaluate their effectiveness through agreement with human ratings and adversarial tests, and demonstrate that prompt-based scorers, particularly those leveraging LLMs and reference evidence, outperform traditional evaluation approaches.
- Abstract(参考訳): 現在の自動事実チェック(AFC)アプローチは、予測された評定を通じて暗黙的に証拠を評価するか、検索された証拠をウィキペディアのような事前に定義された知識ソースと比較することによって、一般的に証拠を評価する。
しかし、これらの手法は、異なる目的のために開発された評価指標と、クローズドな知識ソースによって課せられる制約に依存しているため、制約に悩まされる。
自然言語生成(NLG)評価の最近の進歩は、エビデンス評価に新たな可能性をもたらす。
本研究では,基準ベース,プロキシ参照,参照レスの3種類のエビデンス評価手法を含むAFCの評価フレームワークであるEv2Rを紹介する。
我々は,人間の評価と対人テストとの一致による評価を行い,特にLCMや基準エビデンスを活用して,従来の評価手法よりも優れていることを示す。
関連論文リスト
- Reconstructing Trust Embeddings from Siamese Trust Scores: A Direct-Sum Approach with Fixed-Point Semantics [0.0]
本研究では,多くの分散セキュリティフレームワークが公開している1次元シームズ信頼スコアから高次元信頼埋め込みを再構築する逆問題について検討する。
合成ベンチマークのスイートは、ガウスノイズの存在下でも、回収された埋め込みはユークリッドとコサインの計測値によって測定されたデバイス間幾何学を保存することを確認している。
詳細な信頼スコアを公開することで、デバイスと評価モデルの両方に関する潜伏した行動情報が漏洩する可能性がある。
論文 参考訳(メタデータ) (2025-08-02T20:19:22Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - ClaimTrust: Propagation Trust Scoring for RAG Systems [7.7690689135107425]
ClaimTrustは、RAGシステムにおける文書の信頼性を動的に評価する、伝搬ベースの信頼評価フレームワークである。
我々は、政治ニュース記事814件を前処理し分析し、2,173件のユニークなクレームを抽出し、965件の有意義な関係を分類する。
ClaimTrustは、信頼に値する記事と信頼できない記事とを効果的に区別し、コンバージェンスまで信頼スコアを反復的に更新する。
論文 参考訳(メタデータ) (2025-03-12T07:52:24Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity [27.92468098611616]
コードレビューを評価するための2つの新しいセマンティックベースのアプローチを提案する。
最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換する。
2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、生成されたレビューを評価するためにChatGPTを要求する。
論文 参考訳(メタデータ) (2025-01-09T11:52:32Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。
我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。
我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文 参考訳(メタデータ) (2024-08-29T17:55:07Z) - Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。
Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。
このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文 参考訳(メタデータ) (2024-03-18T06:30:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Plugin estimators for selective classification with out-of-distribution
detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。
これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。
OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。
本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文 参考訳(メタデータ) (2023-01-29T07:45:17Z) - OpenOOD: Benchmarking Generalized Out-of-Distribution Detection [60.13300701826931]
アウト・オブ・ディストリビューション(OOD)検出は、安全クリティカルな機械学習アプリケーションにとって不可欠である。
この分野では現在、統一的で厳格に定式化され、包括的なベンチマークが欠けている。
関連フィールドで開発された30以上のメソッドを実装したOpenOODという,統一的で構造化されたシステムを構築します。
論文 参考訳(メタデータ) (2022-10-13T17:59:57Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Realistic Evaluation Principles for Cross-document Coreference
Resolution [19.95214898312209]
我々は、モデルが標準ECB+データセットの合成トピック構造を利用するべきではないと主張している。
私たちは、より現実的な評価原則が競争モデルに与える影響を実証的に示します。
論文 参考訳(メタデータ) (2021-06-08T09:05:21Z) - Posthoc Verification and the Fallibility of the Ground Truth [10.427125361534966]
我々は,エンティティリンク(EL)タスクにおいて,系統的なポストホック検証実験を行う。
プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。
驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。
論文 参考訳(メタデータ) (2021-06-02T17:57:09Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。