論文の概要: Resources for Automated Evaluation of Assistive RAG Systems that Help Readers with News Trustworthiness Assessment
- arxiv url: http://arxiv.org/abs/2602.24277v1
- Date: Fri, 27 Feb 2026 18:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.571535
- Title: Resources for Automated Evaluation of Assistive RAG Systems that Help Readers with News Trustworthiness Assessment
- Title(参考訳): ニュース信頼度評価を支援する補助的RAGシステムの自動評価のためのリソース
- Authors: Dake Zhang, Mark D. Smucker, Charles L. A. Clarke,
- Abstract要約: 本稿では,TREC 2025 DRAGUNトラックのタスクの再利用を可能にするため,新たに開発したリソースについて述べる。
トラックの評価の一環として、TRECアセスタは、30の異なるニュース記事に対して、短い回答を期待して、重要度の高い質問文を作成しました。
その後、アセステーターはルーブリックを使用して、参加チームの提出したランニングを手動で判断した。
これらのタスクとそのルーブリックを再利用するために、私たちは、元のアセスメントの一部ではない実行を判断する自動化プロセスを作成しました。
- 参考スコア(独自算出の注目度): 10.516355770829326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many readers today struggle to assess the trustworthiness of online news because reliable reporting coexists with misinformation. The TREC 2025 DRAGUN (Detection, Retrieval, and Augmented Generation for Understanding News) Track provided a venue for researchers to develop and evaluate assistive RAG systems that support readers' news trustworthiness assessment by producing reader-oriented, well-attributed reports. As the organizers of the DRAGUN track, we describe the resources that we have newly developed to allow for the reuse of the track's tasks. The track had two tasks: (Task 1) Question Generation, producing 10 ranked investigative questions; and (Task 2, the main task) Report Generation, producing a 250-word report grounded in the MS MARCO V2.1 Segmented Corpus. As part of the track's evaluation, we had TREC assessors create importance-weighted rubrics of questions with expected short answers for 30 different news articles. These rubrics represent the information that assessors believe is important for readers to assess an article's trustworthiness. The assessors then used their rubrics to manually judge the participating teams' submitted runs. To make these tasks and their rubrics reusable, we have created an automated process to judge runs not part of the original assessing. We show that our AutoJudge ranks existing runs well compared to the TREC human-assessed evaluation (Kendall's $τ= 0.678$ for Task 1 and $τ= 0.872$ for Task 2). These resources enable both the evaluation of RAG systems for assistive news trustworthiness assessment and, with the human evaluation as a benchmark, research on improving automated RAG evaluation.
- Abstract(参考訳): 今日、多くの読者がオンラインニュースの信頼性を評価するのに苦労している。
TREC 2025 DRAGUN (Detection, Retrieval, and Augmented Generation for Understanding News) トラックは、研究者が読者のニュース信頼性評価を支援する補助的なRAGシステムを開発し評価する場を提供する。
DRAGUNトラックのオーガナイザとして、トラックのタスクの再利用を可能にするため、新たに開発したリソースについて述べる。
トラックには2つのタスクがあった: (Task 1) 質問生成、ランキング10の質問生成、(Task 2のメインタスク) レポート生成、MS MARCO V2.1セグメンテッドコーパスの250ワードレポート。
トラックの評価の一環として、TRECアセスタは、30の異なるニュース記事に対して、短い回答を期待して、重要度の高い質問文を作成しました。
これらのルーリックは、読者が記事の信頼性を評価することが重要であると評価する情報を表している。
その後、アセステーターはルーブリックを使用して、参加チームの提出したランニングを手動で判断した。
これらのタスクとそのルーブリックを再利用するために、私たちは、元のアセスメントの一部ではない実行を判断する自動化プロセスを作成しました。
我々は,既存のAutoJudgeランキングが,TRECによる人為評価(Kendall's $τ= 0.678$ for Task 1 および $τ= 0.872$ for Task 2)と比較して良好に動作していることを示す。
これらのリソースは、ニュース信頼性評価のためのRAGシステムの評価と、人的評価をベンチマークとして、自動RAG評価の改善に関する研究の両方を可能にする。
関連論文リスト
- Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation [75.66731090275645]
マルチモーダルソースからの検索拡張生成(RAG)評価フレームワークであるMiRAGEを紹介する。
MiRAGEは、InfoF1とCiteF1で構成されるマルチモーダルRAG評価のためのクレーム中心のアプローチである。
論文 参考訳(メタデータ) (2025-10-28T18:21:19Z) - Towards Automated Situation Awareness: A RAG-Based Framework for Peacebuilding Reports [2.230742111425553]
本稿では,状況認識レポートを自律的に生成する動的検索・拡張生成システムを提案する。
本システムでは,要求に基づく問合せ固有の知識ベースを構築し,時間的,関連性,正確な洞察を確保する。
このシステムは、複数の実世界のシナリオでテストされ、一貫性があり、洞察力があり、実行可能なレポートを生成する効果を実証している。
論文 参考訳(メタデータ) (2025-05-14T16:36:30Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [61.38499597241457]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework [53.12387628636912]
本報告では、TREC 2024 Retrieval-Augmented Generation (RAG) Trackの部分的な結果について概説する。
我々は、情報アクセスの継続的な進歩の障壁としてRAG評価を特定した。
論文 参考訳(メタデータ) (2024-11-14T17:25:43Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Towards a GENEA Leaderboard -- an Extended, Living Benchmark for Evaluating and Advancing Conversational Motion Synthesis [8.647997556787557]
本稿では,既存のジェスチャジェネレーション評価の問題点をレビューし,詳述する。
対話型モーション合成の進歩をベンチマークする,次世代のライビングリーダーボードをアナウンスする。
従来のジェスチャー生成の課題とは異なり、リーダーボードは、新しいジェスチャー生成システムの大規模なユーザスタディで更新される。
論文 参考訳(メタデータ) (2024-10-08T20:05:08Z) - Generative Information Retrieval Evaluation [32.38444700888198]
本稿では,2つの異なる相互関連視点から生成情報検索の評価を検討する。
まず、大規模言語モデル(LLM)自体が急速に評価ツールになりつつある。
第2に,新興LLMに基づく生成情報検索(GenIR)システムの評価について検討する。
論文 参考訳(メタデータ) (2024-04-11T21:48:54Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。