論文の概要: Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion
- arxiv url: http://arxiv.org/abs/2603.06397v1
- Date: Fri, 06 Mar 2026 15:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.103198
- Title: Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion
- Title(参考訳): RL-Compiled Diffusionによる高効率・高機能ファンアウト検索
- Authors: Pengcheng Jiang, Judith Yue Li, Moonkyung Ryu, R. Lily Hu, Kun Su, Zhong Yi Wan, Liam Hebert, Hao Peng, Jiawei Han, Dima Kuzmin, Craig Boutilier,
- Abstract要約: ファンアウト検索はしばしば、アイテムセットを検索するための多様なサブクエリを生成するために使用される。
本稿ではR4T(Retrieve-for-Train)を提案する。
R4Tは,クエリ時のファンアウト遅延を桁違いに低減しながら,強いベースラインに対する検索品質を向上させる。
- 参考スコア(独自算出の注目度): 32.795057895718365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern retrieval problems are set-valued: given a broad intent, the system must return a collection of results that optimizes higher-order properties (e.g., diversity, coverage, complementarity, coherence) while remaining grounded with respect to a fixed database. Set-valued objectives are typically non-decomposable and are not captured by existing supervised (query, content) datasets which only prioritize top-1 retrieval. Consequently, fan-out retrieval is often employed to generate diverse subqueries to retrieve item sets. While reinforcement learning (RL) can optimize set-level objectives via interaction, deploying an RL-tuned LLM for fan-out retrieval is prohibitively expensive at inference time. Conversely, diffusion-based generative retrieval enables efficient single-pass fan-out in embedding space, but requires objective-aligned training targets. To address these issues, we propose R4T (Retrieve-for-Train), which uses RL once as an objective transducer in a three-step process: (i) train a fan-out LLM with composite set-level rewards, (ii) synthesize objective-consistent training pairs, and (iii) train a lightweight diffusion retriever to model the conditional distribution of set-valued outputs. Across large-scale fashion and music benchmarks consisting of curated item sets, we show that R4T improves retrieval quality relative to strong baselines while reducing query-time fan-out latency by an order of magnitude.
- Abstract(参考訳): 広義の意図から、システムは、固定データベースに関して基礎を保ちながら、高次特性(例えば、多様性、カバレッジ、相補性、一貫性)を最適化する結果の集合を返さなければならない。
設定された目標は通常非分解可能であり、トップ1検索のみを優先する既存の教師付き(クエリ、コンテンツ)データセットではキャプチャされない。
その結果、様々なサブクエリを生成してアイテム集合を検索するために、ファンアウト検索がよく用いられる。
強化学習(RL)は相互作用によって設定レベルの目的を最適化できるが、ファンアウト検索のためにRLを調整したLLMを配置することは、推論時に極めて高価である。
逆に拡散に基づく生成検索は、埋め込み空間における効率的な単一パスファンアウトを可能にするが、目的に沿ったトレーニングターゲットが必要である。
これらの問題に対処するため,R4T(Retrieve-for-Train)を提案する。
(i)複合的なセットレベルの報酬でファンアウトLDMを訓練する。
二 目的整合トレーニングペアを合成し、
三 設定値出力の条件分布をモデル化する軽量拡散レトリバーを訓練する。
キュレートされたアイテムセットからなる大規模なファッションと音楽のベンチマークにおいて、R4Tはクエリタイムのファンアウト遅延を桁違いに減らしながら、強いベースラインに対する検索品質を向上することを示した。
関連論文リスト
- TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search [11.893855231479717]
Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。
中国最大のeコマースプラットフォームに配備されている。
論文 参考訳(メタデータ) (2025-11-17T20:16:52Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - s3: You Don't Need That Much Data to Train a Search Agent via RL [34.862294169425724]
Retrieval-augmented Generation (RAG)システムでは、大規模言語モデル(LLM)が推論中に外部知識にアクセスできるようになる。
本稿では,検索者をジェネレータから切り離し,Gain Beyond RAG報酬を用いて検索者を訓練する,軽量でモデルに依存しないフレームワークであるs3を提案する。
論文 参考訳(メタデータ) (2025-05-20T09:53:56Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。