論文の概要: Domain-oriented RAG Assessment (DoRA): Synthetic Benchmarking for RAG-based Question Answering on Defense Documents
- arxiv url: http://arxiv.org/abs/2604.17943v1
- Date: Mon, 20 Apr 2026 08:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.762816
- Title: Domain-oriented RAG Assessment (DoRA): Synthetic Benchmarking for RAG-based Question Answering on Defense Documents
- Title(参考訳): ドメイン指向RAGアセスメント(DoRA):防衛文書におけるRAGに基づく質問応答のための総合ベンチマーク
- Authors: Bao Gia Doan, Aditya Joshi, Pantelis Elinas, Aarya Bodhankar, Oscar Leslie, Tom Marchant, Flora Salim,
- Abstract要約: パブリックコーパス上のオープンドメインRAGベンチマークは、重複の事前トレーニングと属性の弱いため、デプロイメントパフォーマンスを過大評価することができる。
提案するDoRAは、合成された意図条件付きQA(クエスト応答)と、帰属のための監査可能なエビデンスパスとを組み合わせた、防衛文書から構築されたドメイングラウンドベンチマークである。
- 参考スコア(独自算出の注目度): 6.248472696866938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-domain RAG benchmarks over public corpora can overestimate deployment performance due to pretraining overlap and weak attribution requirements. We present DoRA (Domain-oriented RAG Assessment), a domain-grounded benchmark built from defense documents that pairs synthetic, intent-conditioned QA (question answering) with auditable evidence passages for attribution. DoRA covers five question types (find, explain, summarize, generate, provide) and contains 6.5K curated instances. In end-to-end evaluation with a fixed dense retriever, general-purpose Language Models (LMs) perform similarly, while a model trained on DoRA (DoRA SFT) yields large gains over the base model (Llama3.1-8B-Instruct): up to 26% improvement in QA task success, while reducing the hallucination rate by 47% in RAG faithfulness scores, supporting contamination-aware regression testing under domain shift.
- Abstract(参考訳): パブリックコーパス上のオープンドメインRAGベンチマークは、重複の事前トレーニングと属性の弱いため、デプロイメントパフォーマンスを過大評価することができる。
提案するDoRA(Domain-oriented RAG Assessment, Domain-oriented RAG Assessment)は,合成された意図条件付きQA(クエスト応答)とアトリビューションのための監査可能なエビデンスパスとを組み合わせた,防衛文書から構築したドメイングラウンドベンチマークである。
DoRAは5つの質問タイプ(フィンド、説明、要約、生成、提供)をカバーし、6.5Kのキュレートされたインスタンスを含んでいる。
固定された高密度検索器を用いたエンドツーエンド評価では、汎用言語モデル(LM)も同様に動作し、DoRA(DoRA SFT)で訓練されたモデルではベースモデルよりも大きく向上する(Llama3.1-8B-Instruct)。
関連論文リスト
- RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。
既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。
本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-06T16:22:52Z) - PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。
LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文 参考訳(メタデータ) (2025-07-25T00:15:31Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment [18.491114307921848]
RAG設定におけるRM評価のための最初のベンチマークであるRAG-RewardBenchを提案する。
まず、RMを評価するために、RAG固有の4つの決定的かつ挑戦的なシナリオを設計する。
次に、データソースの多様性を高めるために、18個のRAGサブセット、6個のレトリバー、24個のALMを組み込んだ。
最後に、LLM-as-a-judgeアプローチを採用し、好みのアノテーション効率と有効性を改善する。
論文 参考訳(メタデータ) (2024-12-18T11:28:05Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。
我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。
RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文 参考訳(メタデータ) (2024-06-20T23:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。