論文の概要: Auto-ARGUE: LLM-Based Report Generation Evaluation
- arxiv url: http://arxiv.org/abs/2509.26184v2
- Date: Wed, 01 Oct 2025 13:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.846399
- Title: Auto-ARGUE: LLM-Based Report Generation Evaluation
- Title(参考訳): Auto-ARGUE: LLMによるレポート生成評価
- Authors: William Walden, Marc Mason, Orion Weller, Laura Dietz, Hannah Recknor, Bryan Li, Gabrielle Kaili-May Liu, Yu Hou, James Mayfield, Eugene Yang,
- Abstract要約: Auto-ARGUEは、レポート生成評価のための最近のARGUEフレームワークの堅牢な実装である。
本稿では,TREC 2024 NeuCLIR トラックからのレポート生成パイロットタスクにおける Auto-ARGUE の解析を行い,人間の判断とシステムレベルの相関性を示す。
- 参考スコア(独自算出の注目度): 29.238033751573806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generation of long-form, citation-backed reports is a primary use case for retrieval augmented generation (RAG) systems. While open-source evaluation tools exist for various RAG tasks, ones tailored to report generation are lacking. Accordingly, we introduce Auto-ARGUE, a robust LLM-based implementation of the recent ARGUE framework for report generation evaluation. We present analysis of Auto-ARGUE on the report generation pilot task from the TREC 2024 NeuCLIR track, showing good system-level correlations with human judgments. We further release a web app for visualization of Auto-ARGUE outputs.
- Abstract(参考訳): ロングフォームな引用支援レポートの生成は、検索強化生成(RAG)システムの主要なユースケースである。
様々なRAGタスクに対してオープンソースの評価ツールが存在するが、レポート生成に適したツールは不足している。
そこで我々は,報告生成評価のための最近のARGUEフレームワークの堅牢なLCMベースの実装であるAuto-ARGUEを紹介する。
本稿では,TREC 2024 NeuCLIR トラックからのレポート生成パイロットタスクにおける Auto-ARGUE の解析を行い,人間の判断とシステムレベルの相関性を示す。
さらに、Auto-ARGUE出力の可視化のためのWebアプリをリリースします。
関連論文リスト
- mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation [23.060355911225923]
リランカは、生成品質と説明可能性を高めるために、検索した文書の精錬において重要な役割を果たす。
本稿では,リランカが検索した文書の順序と数の両方を動的に調整する新しいRAGフレームワークであるDynamicRAGを提案する。
論文 参考訳(メタデータ) (2025-05-12T05:19:01Z) - QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models [4.1180254968265055]
LLM-Refは、研究者が複数のソース文書から記事を書くのを補助する記述支援ツールである。
チャンキングとインデックスを使用する従来のRAGシステムとは異なり、私たちのツールはテキスト段落から直接コンテンツを検索し、生成します。
我々の手法は、RAGシステムの正確で関連性があり、文脈的に適切な応答を生成する能力の全体像を提供する総合的な指標である、Ragasスコアの3.25タイムから6.26タイムの上昇を達成する。
論文 参考訳(メタデータ) (2024-11-01T01:11:58Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。