論文の概要: Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA
- arxiv url: http://arxiv.org/abs/2603.24580v1
- Date: Wed, 25 Mar 2026 17:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.428005
- Title: Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA
- Title(参考訳): 検索改善はより良い回答を保証しない:AIポリシーQAのためのRAGの検討
- Authors: Saahil Mathur, Ryan David Rittner, Vedant Ajit Thakur, Daniel Stuart Schiff, Tunazzina Islam,
- Abstract要約: 本稿では,AIガバナンスと規制アーカイブコーパスを用いて,AIガバナンスとポリシー分析へのRAGの適用について検討する。
コントラスト学習と人選好に適合したジェネレータを組み合わせることで,ColBERTをベースとした検索システムを構築した。
ドメイン固有の微調整は、検索指標を改善するが、エンドツーエンドの質問応答性能は一貫して改善しない。
- 参考スコア(独自算出の注目度): 5.182285573627426
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems are increasingly used to analyze complex policy documents, but achieving sufficient reliability for expert usage remains challenging in domains characterized by dense legal language and evolving, overlapping regulatory frameworks. We study the application of RAG to AI governance and policy analysis using the AI Governance and Regulatory Archive (AGORA) corpus, a curated collection of 947 AI policy documents. Our system combines a ColBERT-based retriever fine-tuned with contrastive learning and a generator aligned to human preferences using Direct Preference Optimization (DPO). We construct synthetic queries and collect pairwise preferences to adapt the system to the policy domain. Through experiments evaluating retrieval quality, answer relevance, and faithfulness, we find that domain-specific fine-tuning improves retrieval metrics but does not consistently improve end-to-end question answering performance. In some cases, stronger retrieval counterintuitively leads to more confident hallucinations when relevant documents are absent from the corpus. These results highlight a key concern for those building policy-focused RAG systems: improvements to individual components do not necessarily translate to more reliable answers. Our findings provide practical insights for designing grounded question-answering systems over dynamic regulatory corpora.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、複雑なポリシー文書の分析にますます使われているが、厳密な法律言語と、重複する規制フレームワークによって特徴づけられる領域において、専門家の使用に対する十分な信頼性を達成することは、依然として困難である。
我々はAIガバナンス・レギュレーション・アーカイブ(AGORA)コーパスを用いて,AIガバナンス・ポリシー分析へのRAGの適用について検討した。
提案システムでは,コントラスト学習で微調整されたColBERTベースのレトリバーと,直接選好最適化(DPO)を用いた人選好に適合したジェネレータを組み合わせる。
我々は、合成クエリを構築し、ポリシードメインにシステムを適用するためにペアワイズな好みを収集する。
検索品質、回答関連性、忠実度を評価する実験により、ドメイン固有の微調整は検索指標を改善するが、エンドツーエンドの質問応答性能は一貫して改善しないことがわかった。
一部のケースでは、より強力な検索は、コーパスから関連文書が欠落している場合に、より確実な幻覚を引き起こす。
これらの結果は、ポリシーにフォーカスしたRAGシステムを構築する上で重要な懸念点を浮き彫りにしている。
本研究は,動的コーパスを用いた基礎質問応答システムを設計するための実践的洞察を提供する。
関連論文リスト
- Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。
既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。
本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-06T16:22:52Z) - From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems [6.762635083456022]
RAGに基づくシステムにおいて,エンティティコアが文書検索と生成性能にどのように影響するかを検討する。
コア参照の解決により検索効率が向上し,質問応答性能(QA)が向上することが実証された。
本研究の目的は、知識集約型AIアプリケーションにおける検索と生成を改善するためのガイダンスを提供することである。
論文 参考訳(メタデータ) (2025-07-10T15:26:59Z) - Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルを強化するための強力なパラダイムとして登場した。
RAGは、検索品質、基底忠実度、パイプライン効率、ノイズや逆入力に対する堅牢性といった新しい課題を導入している。
本調査は、RAG研究における現在の知識を集約し、次世代の検索強化言語モデリングシステムの基礎となることを目的としている。
論文 参考訳(メタデータ) (2025-05-28T22:57:04Z) - Transparent NLP: Using RAG and LLM Alignment for Privacy Q&A [15.86510147965235]
一般データ保護規則では、正確な処理情報を明確でアクセスしやすいものにする必要がある。
本稿では,その義務を果たすためのアライメント技術によって強化された,最先端の検索生成システムについて検討する。
論文 参考訳(メタデータ) (2025-02-10T16:42:00Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications [2.527078412319764]
大規模言語モデル(LLMs)は、時代遅れの知識、幻覚、複雑なコンテキストにおける不適切な推論のために、AIの法と政策の応用に制限に直面している。
Retrieval-Augmented Generation (RAG) システムは、外部知識を取り入れてこれらの問題に対処するが、検索エラー、非効率なコンテキスト統合、高い運用コストに悩まされる。
本稿ではハイブリッドについて述べる。
Adaptive RAG (HyPA-RAG) は、AI法域向けに設計されたシステムで、テストケースはNYC Local Law 144 (LL144) である。
論文 参考訳(メタデータ) (2024-08-29T16:11:20Z) - Better Retrieval May Not Lead to Better Question Answering [59.1892787017522]
システムの性能を改善するための一般的なアプローチは、取得したコンテキストの品質をIRステージから改善することである。
マルチホップ推論を必要とするオープンドメインのQAデータセットであるStrategyQAでは、この一般的なアプローチは驚くほど非効率である。
論文 参考訳(メタデータ) (2022-05-07T16:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。