論文の概要: Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation
- arxiv url: http://arxiv.org/abs/2506.18670v1
- Date: Mon, 23 Jun 2025 14:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.012946
- Title: Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation
- Title(参考訳): クエリードキュメンテーションによる言語モデルに基づく情報検索における強化学習の力の調和
- Authors: Jingming Liu, Yumeng Li, Wei Shi, Yao-Xiang Ding, Hui Su, Kun Zhou,
- Abstract要約: LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 35.70731674603417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have proposed leveraging Large Language Models (LLMs) as information retrievers through query rewriting. However, for challenging corpora, we argue that enhancing queries alone is insufficient for robust semantic matching; the LLM should also have sufficient understanding of the corpus by directly handling and augmenting the documents themselves. To this end, we present an LLM-based retriever empowered to augment both user queries and corpus documents, with its policy fully explored via reinforcement learning (RL) and minimal human inductive bias. Notably, we find that simply allowing the LLM to modify documents yields little benefit unless paired with our carefully designed bidirectional RL framework, which enables the LLM to simultaneously learn and collaborate on both query and document augmentation policies. A key technical challenge in realizing such a framework lies in jointly updating both policies during training, where the rewards for the two directions depend on each other, making their entangled reward intractable. Our approach addresses this by introducing a reward sampling strategy and a specifically designed RL algorithm that enables effective training with these sampled rewards. Experimental results demonstrate that our approach significantly enhances LLM-based retrieval performance in both sparse and dense settings, particularly in difficult retrieval domains, and achieves strong cross-benchmark generalization. Our code is released at https://github.com/liujm2001/CoAugRetriever.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) をクエリ書き換えによる情報検索に活用する手法が提案されている。
しかし、コーパスに挑戦するためには、クエリの強化だけではロバストなセマンティックマッチングには不十分であると主張する。
この目的のために,ユーザクエリとコーパスドキュメントの両方を拡張可能なLLMベースの検索ツールを提案し,そのポリシーは強化学習(RL)と最小限の人間帰納バイアスによって完全に検討されている。
特に, LLM がドキュメントの変更を許すことは, 慎重に設計された双方向 RL フレームワークと組み合わせない限りほとんど利益が得られず, LLM がクエリとドキュメント拡張ポリシを同時に学習し, 協力することを可能にしている。
このようなフレームワークを実現する上で重要な技術的課題は、トレーニング中に両方のポリシーを共同で更新することにある。
提案手法では、報酬サンプリング戦略と、これらの報酬を用いた効果的なトレーニングを可能にする特別に設計されたRLアルゴリズムを導入することで、この問題に対処する。
実験結果から,本手法はスパース領域と高密度領域,特に難解領域においてLLMに基づく検索性能を著しく向上し,強力なクロスベンチマークの一般化を実現することが示された。
私たちのコードはhttps://github.com/liujm2001/CoAugRetriever.comで公開されています。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。