論文の概要: Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.20825v1
- Date: Tue, 27 May 2025 07:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.477255
- Title: Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation
- Title(参考訳): 長期検索拡張生成のための強化インフォーマルネス最適化
- Authors: Yuhao Wang, Ruiyang Ren, Yucheng Wang, Wayne Xin Zhao, Jing Liu, Hua Wu, Haifeng Wang,
- Abstract要約: LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 77.10390725623125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form question answering (LFQA) presents unique challenges for large language models, requiring the synthesis of coherent, paragraph-length answers. While retrieval-augmented generation (RAG) systems have emerged as a promising solution, existing research struggles with key limitations: the scarcity of high-quality training data for long-form generation, the compounding risk of hallucination in extended outputs, and the absence of reliable evaluation metrics for factual completeness. In this paper, we propose RioRAG, a novel reinforcement learning (RL) framework that advances long-form RAG through reinforced informativeness optimization. Our approach introduces two fundamental innovations to address the core challenges. First, we develop an RL training paradigm of reinforced informativeness optimization that directly optimizes informativeness and effectively addresses the slow-thinking deficit in conventional RAG systems, bypassing the need for expensive supervised data. Second, we propose a nugget-centric hierarchical reward modeling approach that enables precise assessment of long-form answers through a three-stage process: extracting the nugget from every source webpage, constructing a nugget claim checklist, and computing rewards based on factual alignment. Extensive experiments on two LFQA benchmarks LongFact and RAGChecker demonstrate the effectiveness of the proposed method. Our codes are available at https://github.com/RUCAIBox/RioRAG.
- Abstract(参考訳): LFQA (Long-form Question answering) は大きな言語モデルに固有の課題を示し、コヒーレントなパラグラフ長の回答を合成する必要がある。
検索強化世代システム(RAG)は有望な解決策として現れてきたが、既存の研究は、長文生成のための高品質なトレーニングデータの不足、拡張出力における幻覚の複合リスク、事実の完全性に関する信頼性評価指標の欠如など、重要な制限に直面している。
本稿では,強化情報度最適化により長めのRAGを向上する新しい強化学習(RL)フレームワークであるRioRAGを提案する。
このアプローチでは、コア課題に対処する2つの基本的なイノベーションを導入しています。
まず,従来のRAGシステムにおいて,情報性を直接最適化し,低調な欠点に対処する強化情報性最適化のためのRLトレーニングパラダイムを開発し,高価な教師付きデータの必要性を回避した。
第2に,nugget中心の階層型報酬モデリング手法を提案する。これは3段階のプロセスによって,nuggetをすべてのWebページから抽出し,nuggetクレームチェックリストを構築し,実数アライメントに基づいて計算する。
LongFact と RAGChecker の2つの LFQA ベンチマークによる実験により,提案手法の有効性が示された。
私たちのコードはhttps://github.com/RUCAIBox/RioRAG.comで公開されています。
関連論文リスト
- TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
本研究では,人間のアノテーションを使わずに,大規模言語モデル(LLM)の短文および長文生成タスクにおける忠実度を改善するための体系的フレームワークであるCANOEを提案する。
また,ルールに基づく強化学習手法であるDual-GRPOを提案する。
実験結果から,CANOEは11の下流タスクにまたがるLLMの忠実度を大幅に向上し,最も先進的なLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.87532210660456]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。
クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。
実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文 参考訳(メタデータ) (2025-02-03T08:22:45Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering [11.73887020240588]
本稿では,多面的回答の生成において明確な論理を実現するために,新しいアウトライン強化ジェネレータを提案する。
そこで本研究では,2つの微細なRLHFフレームワークを念頭に設計したファクトリティ最適化手法を提案する。
特に,本手法をLlama2-7B-chatに適用する場合,導出モデルFoRAG-L-7BはWebGPT-175Bを3つの一般的なメトリクスで上回っている。
論文 参考訳(メタデータ) (2024-06-19T19:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。