論文の概要: Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards
- arxiv url: http://arxiv.org/abs/2510.04392v1
- Date: Sun, 05 Oct 2025 23:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.625278
- Title: Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards
- Title(参考訳): グループ類似性を考慮した検索拡張システムの整合性向上
- Authors: Faisal Hamman, Chenyang Zhu, Anoop Kumar, Xujun Peng, Sanghamitra Dutta, Daben Liu, Alfy Samuel,
- Abstract要約: RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
既存のシステムは、レトリバーとジェネレータの両方のばらつきにより、しばしば重大な矛盾を示す。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解する基本的評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.535325886547112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RAG systems are increasingly deployed in high-stakes domains where users expect outputs to be consistent across semantically equivalent queries. However, existing systems often exhibit significant inconsistencies due to variability in both the retriever and generator (LLM), undermining trust and reliability. In this work, we focus on information consistency, i.e., the requirement that outputs convey the same core content across semantically equivalent inputs. We introduce a principled evaluation framework that decomposes RAG consistency into retriever-level, generator-level, and end-to-end components, helping identify inconsistency sources. To improve consistency, we propose Paraphrased Set Group Relative Policy Optimization (PS-GRPO), an RL approach that leverages multiple rollouts across paraphrased set to assign group similarity rewards. We leverage PS-GRPO to achieve Information Consistent RAG (Con-RAG), training the generator to produce consistent outputs across paraphrased queries and remain robust to retrieval-induced variability. Because exact reward computation over paraphrase sets is computationally expensive, we also introduce a scalable approximation method that retains effectiveness while enabling efficient, large-scale training. Empirical evaluations across short-form, multi-hop, and long-form QA benchmarks demonstrate that Con-RAG significantly improves both consistency and accuracy over strong baselines, even in the absence of explicit ground-truth supervision. Our work provides practical solutions for evaluating and building reliable RAG systems for safety-critical deployments.
- Abstract(参考訳): RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
しかし、既存のシステムでは、レトリバーとジェネレータ(LLM)の両方のばらつきにより、信頼性と信頼性が損なわれているため、大きな矛盾が生じていることが多い。
本研究は、情報一貫性、すなわち、出力が意味論的に等価な入力に対して同じコアコンテンツを伝達する要求に焦点をあてる。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解し,不整合源の同定を支援する原理的評価フレームワークを提案する。
一貫性を向上させるために,パラフレーズ集合間の複数ロールアウトを利用してグループ類似性報酬を割り当てるRL手法であるParaphrased Set Group Relative Policy Optimization (PS-GRPO)を提案する。
我々はPS-GRPOを活用して情報一貫性RAG(Con-RAG)を実現し,パラメータ付きクエリ間で一貫した出力を生成するようにジェネレータを訓練する。
パラフレーズ集合上での正確な報酬計算は計算コストがかかるため、効率性を維持しながら大規模トレーニングを実現するスケーラブルな近似法も導入する。
ショートフォーム、マルチホップ、ロングフォームのQAベンチマークによる実証的な評価は、Con-RAGが強いベースラインに対する一貫性と正確性の両方を大幅に改善することを示している。
我々の研究は、安全クリティカルなデプロイメントのための信頼性の高いRAGシステムの評価と構築のための実用的なソリューションを提供する。
関連論文リスト
- Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。