Fugu-MT 論文翻訳(概要): Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking

論文の概要: Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking

arxiv url: http://arxiv.org/abs/2411.05375v1
Date: Fri, 08 Nov 2024 07:05:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.698957
Title: Ev2R: Evaluating Evidence Retrieval in Automated Fact-Checking
Title（参考訳）: Ev2R: 自動Fact-Checkingにおけるエビデンス検索の評価
Authors: Mubashara Akhtar, Michael Schlichtkrull, Andreas Vlachos,
Abstract要約: Ev2Rは自動ファクトチェック(AFC)の評価フレームワークであるこれはエビデンス評価のための3つのアプローチ(参照ベース、プロキシ参照、参照なし)で構成されている。本研究は, 人体評価と対人テストとの一致により, 有効性を評価した。
参考スコア（独自算出の注目度）: 11.300523252168327
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current automated fact-checking (AFC) approaches commonly evaluate evidence either implicitly via the predicted verdicts or by comparing retrieved evidence with a predefined closed knowledge source, such as Wikipedia. However, these methods suffer from limitations, resulting from their reliance on evaluation metrics developed for different purposes and constraints imposed by closed knowledge sources. Recent advances in natural language generation (NLG) evaluation offer new possibilities for evidence assessment. In this work, we introduce Ev2R, an evaluation framework for AFC that comprises three types of approaches for evidence evaluation: reference-based, proxy-reference, and reference-less. We evaluate their effectiveness through agreement with human ratings and adversarial tests, and demonstrate that prompt-based scorers, particularly those leveraging LLMs and reference evidence, outperform traditional evaluation approaches.
Abstract（参考訳）: 現在の自動事実チェック(AFC)アプローチは、予測された評定を通じて暗黙的に証拠を評価するか、検索された証拠をウィキペディアのような事前に定義された知識ソースと比較することによって、一般的に証拠を評価する。しかし、これらの手法は、異なる目的のために開発された評価指標と、クローズドな知識ソースによって課せられる制約に依存しているため、制約に悩まされる。自然言語生成(NLG)評価の最近の進歩は、エビデンス評価に新たな可能性をもたらす。本研究では,基準ベース,プロキシ参照,参照レスの3種類のエビデンス評価手法を含むAFCの評価フレームワークであるEv2Rを紹介する。我々は,人間の評価と対人テストとの一致による評価を行い,特にLCMや基準エビデンスを活用して,従来の評価手法よりも優れていることを示す。

関連論文リスト

Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。本稿では,予測の基盤性を考慮した新しい評価手法を提案する。提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文参考訳（メタデータ） (2025-03-24T20:14:46Z)
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。 DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。 DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文参考訳（メタデータ） (2025-03-11T15:29:55Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文参考訳（メタデータ） (2024-08-29T17:55:07Z)
Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文参考訳（メタデータ） (2024-05-02T13:48:37Z)
DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。 Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文参考訳（メタデータ） (2024-03-18T06:30:41Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文参考訳（メタデータ） (2024-02-18T19:13:52Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Plugin estimators for selective classification with out-of-distribution detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。 OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文参考訳（メタデータ） (2023-01-29T07:45:17Z)
OpenOOD: Benchmarking Generalized Out-of-Distribution Detection [60.13300701826931]
アウト・オブ・ディストリビューション(OOD)検出は、安全クリティカルな機械学習アプリケーションにとって不可欠である。この分野では現在、統一的で厳格に定式化され、包括的なベンチマークが欠けている。関連フィールドで開発された30以上のメソッドを実装したOpenOODという,統一的で構造化されたシステムを構築します。
論文参考訳（メタデータ） (2022-10-13T17:59:57Z)
From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文参考訳（メタデータ） (2022-01-20T13:23:20Z)
Posthoc Verification and the Fallibility of the Ground Truth [10.427125361534966]
我々は,エンティティリンク(EL)タスクにおいて,系統的なポストホック検証実験を行う。プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。
論文参考訳（メタデータ） (2021-06-02T17:57:09Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。