論文の概要: Can we Evaluate RAGs with Synthetic Data?
- arxiv url: http://arxiv.org/abs/2508.11758v1
- Date: Fri, 15 Aug 2025 18:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.359909
- Title: Can we Evaluate RAGs with Synthetic Data?
- Title(参考訳): RAGを合成データで評価できるか?
- Authors: Jonas van Elburg, Peter van der Putten, Maarten Marx,
- Abstract要約: 本研究では,大規模言語モデルが生成する合成質問応答データが,そのようなデータが利用できない場合に,人間のラベル付きベンチマークの効果的なプロキシとして機能するかどうかを検討する。
総合ベンチマークは、検索者構成の異なるRAGを確実にランク付けし、人間ラベルのベンチマークベースラインとよく一致していることがわかった。
しかし、ジェネレータアーキテクチャの比較では、一貫したRAGランキングの生成に失敗している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether synthetic question-answer (QA) data generated by large language models (LLMs) can serve as an effective proxy for human-labeled benchmarks when such data is unavailable. We assess the reliability of synthetic benchmarks across two experiments: one varying retriever parameters while keeping the generator fixed, and another varying the generator with fixed retriever parameters. Across four datasets, of which two open-domain and two proprietary, we find that synthetic benchmarks reliably rank the RAGs varying in terms of retriever configuration, aligning well with human-labeled benchmark baselines. However, they fail to produce consistent RAG rankings when comparing generator architectures. The breakdown possibly arises from a combination of task mismatch between the synthetic and human benchmarks, and stylistic bias favoring certain generators.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)が生成する合成質問応答(QA)データが,そのようなデータが利用できない場合に,人間のラベル付きベンチマークの効果的なプロキシとして機能するかどうかを検討する。
筆者らは,2つの実験の総合的なベンチマークの信頼性を評価する。1つは,発電機を固定したままのレトリバーパラメータ,もう1つは固定されたレトリバーパラメータを持つジェネレータの信頼性を評価する。
4つのデータセットのうち2つのオープンドメインと2つのプロプライエタリなドメインで、合成ベンチマークは、レトリバー構成の点でRAGを確実にランク付けし、ヒトラベルのベンチマークベースラインとよく一致している。
しかし、ジェネレータアーキテクチャの比較では、一貫したRAGランキングの生成に失敗している。
この分解は、合成されたベンチマークと人間のベンチマークのタスクミスマッチの組み合わせと、特定のジェネレータに有利なスタイル的バイアスから生じる可能性がある。
関連論文リスト
- RAGSynth: Synthetic Data for Robust and Faithful RAG Component Optimization [17.646474558498088]
RAGは知識集約タスクにおけるLLMの性能を向上させることができる。
既存のレトリバーは、公開知識に大きく依存し、様々な論理的複雑さと手がかり完全性のクエリに苦労する。
データ構築モデリングとそれに対応する合成データ生成実装を含むフレームワークであるRAG Synthを紹介する。
論文 参考訳(メタデータ) (2025-05-16T08:38:25Z) - Intrinsic Evaluation of RAG Systems for Deep-Logic Questions [2.869056892890114]
本稿では,検索拡張生成(RAG)機構を深い論理的クエリを含むアプリケーションに適用するための本質的な指標である総合性能指標(OPI)を紹介する。
OPIは2つの重要な指標の調和平均として計算される: 論理関係の正確度比(Logical-Relation Correctness Ratio)と BERT の平均値。
論文 参考訳(メタデータ) (2024-10-03T19:25:05Z) - WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain [2.8514947506989707]
Large Language Models (LLM) と Retrieval Augmented Generation (RAG) アプローチは、トランスフォーメーションソリューションを提供する。
本稿では,ドメイン関連RAGベンチマークを生成するための包括的なフレームワークを提案する。
風力エネルギー領域の第一級ベンチマークであるWeQAを導入することで、この枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-21T17:43:11Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - On the use of automatically generated synthetic image datasets for
benchmarking face recognition [2.0196229393131726]
GAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
現実的な顔画像を合成するためのGAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
合成データセットのベンチマーク結果は、良い置換であり、多くの場合、実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。
論文 参考訳(メタデータ) (2021-06-08T09:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。