Fugu-MT 論文翻訳(概要): FinGrAct: A Framework for FINe-GRrained Evaluation of ACTionability in Explainable Automatic Fact-Checking

論文の概要: FinGrAct: A Framework for FINe-GRrained Evaluation of ACTionability in Explainable Automatic Fact-Checking

arxiv url: http://arxiv.org/abs/2504.05229v1
Date: Mon, 07 Apr 2025 16:14:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 15:17:10.222266
Title: FinGrAct: A Framework for FINe-GRrained Evaluation of ACTionability in Explainable Automatic Fact-Checking
Title（参考訳）: FinGrAct: 説明可能なFact-Checkingにおけるアクティオン性評価フレームワーク
Authors: Islam Eldifrawi, Shengrui Wang, Amine Trabelsi,
Abstract要約: 本稿では、Webにアクセス可能なきめ細かい評価フレームワークFinGrActを紹介する。明確に定義された基準と評価データセットを通じて、自動ファクト・チェッキンの説明における動作可能性を評価するように設計されている。 FinGrAct は最先端の評価者を超え、Pearson と Kendall を人間の判断と最高の相関を達成している。
参考スコア（独自算出の注目度）: 2.0140898354987353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The field of explainable Automatic Fact-Checking (AFC) aims to enhance the transparency and trustworthiness of automated fact-verification systems by providing clear and comprehensible explanations. However, the effectiveness of these explanations depends on their actionability --their ability to empower users to make informed decisions and mitigate misinformation. Despite actionability being a critical property of high-quality explanations, no prior research has proposed a dedicated method to evaluate it. This paper introduces FinGrAct, a fine-grained evaluation framework that can access the web, and it is designed to assess actionability in AFC explanations through well-defined criteria and an evaluation dataset. FinGrAct surpasses state-of-the-art (SOTA) evaluators, achieving the highest Pearson and Kendall correlation with human judgments while demonstrating the lowest ego-centric bias, making it a more robust evaluation approach for actionability evaluation in AFC.
Abstract（参考訳）: 説明可能な自動Fact-Checking(AFC)の分野は、明確で理解可能な説明を提供することで、自動化された事実検証システムの透明性と信頼性を高めることを目的としている。しかし、これらの説明の有効性は、ユーザに対して情報的な決定をし、誤情報を緩和する能力という、行動可能性に依存している。アクションビリティは高品質な説明の重要な特性であるにもかかわらず、それを評価するための専用の方法が提案されていない。本稿では、Webにアクセス可能なきめ細かい評価フレームワークであるFinGrActを紹介し、適切に定義された基準と評価データセットを用いて、AFC説明の動作性を評価するように設計されている。 FinGrActは、最先端(SOTA)評価器を超越し、人間の判断とピアソンとケンドールの相関を最大化し、最低のエゴ中心バイアスを示し、AFCにおける行動可能性評価のためのより堅牢な評価アプローチとなる。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文参考訳（メタデータ） (2025-05-13T20:36:22Z)
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。 DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。 DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文参考訳（メタデータ） (2025-03-11T15:29:55Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
AIモデルの特徴である"ブラックボックス"は、解釈可能性、透明性、信頼性を制約する。本研究では,AIモデルによる説明の正確性,解釈可能性,堅牢性,公正性,完全性を評価するための統合XAI評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T05:30:10Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [12.542045913426639]
CheckEvalはチェックリストベースの評価フレームワークで、バイナリ質問を通じて評価信頼性を向上させる。 CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文参考訳（メタデータ） (2024-03-27T17:20:39Z)
Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。 UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。 UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文参考訳（メタデータ） (2024-02-26T20:09:44Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
How (Not) To Evaluate Explanation Quality [29.40729766120284]
タスクやドメインにまたがって適用される説明品質の望ましい特性を定式化する。本稿では,今日の説明品質評価を制限する障害を克服するための実用的なガイドラインを提案する。
論文参考訳（メタデータ） (2022-10-13T16:06:59Z)
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文参考訳（メタデータ） (2020-02-10T00:26:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。