Fugu-MT 論文翻訳(概要): Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

論文の概要: Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

arxiv url: http://arxiv.org/abs/2406.14783v2
Date: Tue, 08 Oct 2024 15:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 08:47:54.169848
Title: Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
Title（参考訳）: RAGEloによるRAG融合の評価 - 自動エロベースフレームワーク
Authors: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel,
Abstract要約: 本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。 RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
参考スコア（独自算出の注目度）: 0.5897092980823265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Challenges in the automated evaluation of Retrieval-Augmented Generation (RAG) Question-Answering (QA) systems include hallucination problems in domain-specific knowledge and the lack of gold standard benchmarks for company internal tasks. This results in difficulties in evaluating RAG variations, like RAG-Fusion (RAGF), in the context of a product QA task at Infineon Technologies. To solve these problems, we propose a comprehensive evaluation framework, which leverages Large Language Models (LLMs) to generate large datasets of synthetic queries based on real user queries and in-domain documents, uses LLM-as-a-judge to rate retrieved documents and answers, evaluates the quality of answers, and ranks different variants of Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based competition. LLM-as-a-judge rating of a random sample of synthetic queries shows a moderate, positive correlation with domain expert scoring in relevance, accuracy, completeness, and precision. While RAGF outperformed RAG in Elo score, a significance analysis against expert annotations also shows that RAGF significantly outperforms RAG in completeness, but underperforms in precision. In addition, Infineon's RAGF assistant demonstrated slightly higher performance in document relevance based on MRR@5 scores. We find that RAGElo positively aligns with the preferences of human annotators, though due caution is still required. Finally, RAGF's approach leads to more complete answers based on expert annotations and better answers overall based on RAGElo's evaluation criteria.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) Question-Answering (QA)システムの自動評価における課題は、ドメイン固有知識における幻覚問題や、企業内業務におけるゴールドスタンダードベンチマークの欠如である。これにより、Infineon Technologiesの製品QAタスクのコンテキストにおいてRAG-Fusion(RAGF)のようなRAG変動を評価するのが困難になる。これらの問題を解決するために,Large Language Models (LLMs) を用いて,実際のユーザクエリとドメイン内ドキュメントに基づく大規模な合成クエリのデータセットを生成し,LLM-as-a-judgeを用いて検索した文書と回答を評価し,回答の質を評価し,RAGEloの自動エロベースコンペティションを備えた検索語拡張生成(RAG)エージェントのさまざまなバリエーションをランク付けする総合評価フレームワークを提案する。 LLM-as-a-judge rating of a random sample of synthetic query shows a moderate, positive correlation with domain expert score inlevance, accuracy, completeness and precision。 RAGFはEloスコアにおいてRAGよりも優れていたが、専門家のアノテーションに対する意味分析ではRAGFはRAGの完全性では著しく優れていたが、精度では劣ることが示された。さらに、InfineonのRAGFアシスタントは、MRR@5スコアに基づいて、文書関連性において若干高いパフォーマンスを示した。 RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。最後に、RAGFのアプローチは、専門家のアノテーションに基づくより完全な回答と、RAGEloの評価基準に基づく全体的なより良い回答をもたらす。

関連論文リスト

RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文参考訳（メタデータ） (2025-11-06T16:22:52Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。 ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。 TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文参考訳（メタデータ） (2025-05-22T09:04:03Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。 Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。 MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文参考訳（メタデータ） (2024-12-31T08:07:26Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
Evaluating ChatGPT on Nuclear Domain-Specific Data [0.0]
本稿では,大規模言語モデル(LLM)であるChatGPTの,高度に専門化された核データ分野におけるQ&Aタスクへの適用について検討する。主な焦点は、キュレートされたテストデータセット上でのChatGPTのパフォーマンスの評価である。 LLMにRAGパイプラインを組み込むことにより, 性能の向上が図られた。
論文参考訳（メタデータ） (2024-08-26T08:17:42Z)
RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。 RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。 RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文参考訳（メタデータ） (2024-08-15T10:20:54Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。 RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。 TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文参考訳（メタデータ） (2024-06-25T20:23:15Z)
RAG-Fusion: a New Take on Retrieval-Augmented Generation [0.0]
Infineonは、エンジニア、アカウントマネージャ、顧客が迅速に製品情報を取得する必要性を特定している。この研究は人工知能(AI)と自然言語処理(NLP)の応用において大きな進歩をみせている。
論文参考訳（メタデータ） (2024-01-31T22:06:07Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。 ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。コードとデータセットをGithubで公開しています。
論文参考訳（メタデータ） (2023-11-16T00:39:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。