論文の概要: RAG-Reward: Optimizing RAG with Reward Modeling and RLHF
- arxiv url: http://arxiv.org/abs/2501.13264v1
- Date: Wed, 22 Jan 2025 22:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:34.115325
- Title: RAG-Reward: Optimizing RAG with Reward Modeling and RLHF
- Title(参考訳): RAG-Reward: Reward ModelingとRLHFによるRAGの最適化
- Authors: Hanning Zhang, Juntong Song, Juno Zhu, Yuanhao Wu, Tong Zhang, Cheng Niu,
- Abstract要約: Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。
我々はtextbfRAG-Reward を導入した。これはtextithallucination-free, comprehensive, reliable, and efficient RAG を実現するために設計されたデータセットである。
我々は報酬モデルを訓練し、人間からのフィードバックで強化学習を適用し、RAGにおけるLLMの有効性を向上させる。
- 参考スコア(独自算出の注目度): 8.911260109659489
- License:
- Abstract: Retrieval-augmented generation (RAG) enhances Large Language Models (LLMs) with relevant and up-to-date knowledge, improving their ability to answer knowledge-intensive questions. It has been shown to enhance both generation quality and trustworthiness. While numerous works have focused on improving retrieval, generation, and evaluation, the role of reward models in reinforcement learning for optimizing RAG and establishing automated benchmarking pipelines remains underexplored. In this paper, we introduce \textbf{RAG-Reward}, a dataset designed to enable \textit{hallucination-free, comprehensive, reliable, and efficient RAG}. We define four key metrics for assessing generation quality and develop an automated annotation pipeline that leverages multiple LLMs to generate outputs across diverse RAG scenarios. GPT-4o is used to evaluate and construct preference data. Using \textbf{RAG-Reward}, we train reward models and apply reinforcement learning with human feedback (RLHF) to improve LLMs' effectiveness in RAG. Experimental results show that our reward model achieves state-of-the-art performance on a held-out test set, demonstrating both the effectiveness of our approach and the quality of our dataset. Furthermore, the improved generation quality of the trained policy model highlights the feasibility of using RLHF to enhance RAG pipelines.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、Large Language Models (LLM) を関連知識と最新知識で強化し、知識集約的な質問に答える能力を向上させる。
世代的品質と信頼性の両方を高めることが示されている。
多くの研究が検索、生成、評価の改善に重点を置いているが、RAGの最適化と自動ベンチマークパイプラインの確立のための強化学習における報酬モデルの役割は未定である。
本稿では, <textit{hallucination-free, comprehensive, reliable, and efficient RAG} を実現するために設計されたデータセットである \textbf{RAG-Reward} を紹介する。
我々は、生成品質を評価するための4つの重要な指標を定義し、様々なRAGシナリオにまたがる出力を生成するために複数のLCMを利用する自動アノテーションパイプラインを開発する。
GPT-4oは嗜好データの評価と構築に使用される。
報奨モデルを用いて人間フィードバック(RLHF)による強化学習を適用し,RAGにおけるLLMの有効性を向上する。
実験結果から,提案手法の有効性とデータセットの品質の両立を実証し,提案手法の有効性を実証した。
さらに、トレーニングされたポリシーモデルの生成品質の向上は、RAGパイプラインを強化するためにRLHFを使用することの可能性を強調している。
関連論文リスト
- Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Reward-RAG: Enhancing RAG with Reward Driven Supervision [43.66966457772646]
本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいアプローチであるReward-RAGを紹介する。
従来のRAG手法とは異なり,本手法ではCriticGPTを用いて検索情報を特定の領域に適応させ,専用報酬モデルを訓練する。
この報酬モデルは、RAGを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。
論文 参考訳(メタデータ) (2024-10-03T15:26:50Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。