論文の概要: DRAGON: Dynamic RAG Benchmark On News
- arxiv url: http://arxiv.org/abs/2507.05713v1
- Date: Tue, 08 Jul 2025 06:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.64667
- Title: DRAGON: Dynamic RAG Benchmark On News
- Title(参考訳): DRAGON: ニュースの動的RAGベンチマーク
- Authors: Fedor Chernogorskii, Sergei Averkiev, Liliya Kudraleeva, Zaven Martirosian, Maria Tikhonova, Valentin Malykh, Alena Fenogenova,
- Abstract要約: 本稿では,ロシアにおけるRAGシステム評価のための動的ベンチマークであるDRAGONについて報告する。
DRAGONは、定期的に更新されたロシアのニュースと公開文書のコーパスの上に構築され、レトリバーとジェネレータコンポーネントの包括的な評価をサポートする。
我々は、自動質問生成のためのパイプライン、他の言語や多言語設定、ベンチマークデータに対して潜在的に再利用可能な評価スクリプトを含む完全な評価フレームワークをリリースする。
- 参考スコア(独自算出の注目度): 3.616885651867665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a widely adopted approach for improving the factuality of large language models (LLMs) by incorporating external knowledge at inference time. Although there exist multiple RAG benchmarks for English, evaluation resources for other languages, including Russian, remain scarce and static, failing to capture the dynamic nature of real-world deployments. In this work, we present DRAGON (Dynamic RAG Benchmark On News), the first dynamic benchmark for evaluating RAG systems in Russian on a changing news corpora. DRAGON is built upon a regularly updated corpus of Russian news and public documents and supports comprehensive evaluation of both the retriever and generator components. Question generation is performed automatically with the use of Knowledge Graph constructed from the corpus and enables the extraction of four core question types aligned with distinct subgraph patterns. We release a complete evaluation framework comprising the pipeline for automatic question generation, evaluation scripts, which are potentially reusable for other languages and multilingual settings, and benchmark data. We also launch a public leaderboard to encourage community participation and comparison.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の現実性を改善するために広く採用されている手法である。
英語には複数のRAGベンチマークが存在するが、ロシア語を含む他の言語に対する評価リソースは乏しく、静的であり、実際のデプロイメントの動的な性質を捉えていない。
本研究では,ロシアにおけるRAGシステム評価のための動的ベンチマークであるDRAGON(Dynamic RAG Benchmark On News)を提案する。
DRAGONは、定期的に更新されたロシアのニュースと公開文書のコーパスの上に構築され、レトリバーとジェネレータコンポーネントの包括的な評価をサポートする。
コーパスから構築した知識グラフを用いて、問合せ生成を自動的に行い、異なるサブグラフパターンに整合した4つのコア質問型の抽出を可能にする。
我々は、自動質問生成のためのパイプライン、他の言語や多言語設定、ベンチマークデータに対して潜在的に再利用可能な評価スクリプトを含む完全な評価フレームワークをリリースする。
また、コミュニティの参加と比較を促進するための公開のリーダーボードも立ち上げました。
関連論文リスト
- MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation [13.440594349043916]
マルチリンガル・エンド・エンド・エンド・メタ評価RAGベンチマーク(MEMERAG)を開発した。
我々のベンチマークは,MIRACLデータセット上に構築されており,母国語質問を用いて多種多様な大言語モデル(LLM)による応答を生成する。
提案するベンチマークでは,高度なプロンプト技術とLCMによる改善を確実に識別できることが示されている。
論文 参考訳(メタデータ) (2025-02-24T13:58:42Z) - WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain [2.8514947506989707]
Large Language Models (LLM) と Retrieval Augmented Generation (RAG) アプローチは、トランスフォーメーションソリューションを提供する。
本稿では,ドメイン関連RAGベンチマークを生成するための包括的なフレームワークを提案する。
風力エネルギー領域の第一級ベンチマークであるWeQAを導入することで、この枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-21T17:43:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。