論文の概要: Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities
- arxiv url: http://arxiv.org/abs/2508.20324v1
- Date: Wed, 27 Aug 2025 23:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.86584
- Title: Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities
- Title(参考訳): コンパクト言語モデルでエージェントの検索は可能か? : エージェントRAG機能を維持するための蒸留誘導政策最適化
- Authors: Rikuto Kotoge, Mai Nishimura, Jiaxin Ma,
- Abstract要約: 強化学習(Reinforcement Learning)は、言語モデルからエージェントRAGの振る舞いを抽出するためのポストトレーニングアプローチとして登場した。
Agentic RAG Capabilities (ARC) は、推論、探索調整、応答合成を詳細に分析するメトリクスである。
DGPOはリソース制約のある環境でエージェントRAGを実現する。
- 参考スコア(独自算出の注目度): 5.221077757149821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning has emerged as a post-training approach to elicit agentic RAG behaviors such as search and planning from language models. However, compact language models (e.g., 0.5B parameters) struggle due to poor reasoning ability, resulting in sparse rewards and unstable training. To overcome these difficulties, we propose Distillation-Guided Policy Optimization (DGPO), which addresses the challenges through cold-start initialization from teacher demonstrations and continuous teacher guidance during policy optimization. To systematically evaluate our approach, we introduce Agentic RAG Capabilities (ARC), a fine-grained metric analyzing reasoning, search coordination, and response synthesis. Comprehensive experiments demonstrate that DGPO enables compact models to achieve sophisticated agentic search behaviors, even outperforming the larger teacher model in some cases. DGPO makes agentic RAG feasible in computing resource-constrained environments.
- Abstract(参考訳): 強化学習(Reinforcement Learning)は、言語モデルから検索や計画といったエージェント的なRAG行動を引き出すためのポストトレーニングアプローチとして登場した。
しかし、コンパクトな言語モデル(例:0.5Bパラメータ)は推論能力の貧弱さに苦しむため、スパース報酬と不安定なトレーニングをもたらす。
これらの課題を克服するために,教師のデモからコールドスタート初期化や政策最適化中の教師指導による課題に対処する蒸留誘導政策最適化(DGPO)を提案する。
提案手法を体系的に評価するために,エージェントRAG機能(ARC)を導入し,推論,探索調整,応答合成を行う。
総合的な実験により、DGPOはコンパクトモデルによって高度なエージェント探索動作を達成でき、場合によってはより大きな教師モデルよりも優れていることが示されている。
DGPOはリソース制約のある環境でエージェントRAGを実現する。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges [6.615766570234612]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの知識制限を克服する強力なフレームワークとして登場した。
これらの課題に対処するため、フィールドは推論エージェントRAG(Reasoning Agentic RAG)へと移行した。
論文 参考訳(メタデータ) (2025-06-12T07:01:56Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.17265013728931003]
GRPO-LEADは数学的推論に適した新しい拡張セットである。
本研究は,(1)正確で正確な解法を奨励する長さ依存的精度報酬,(2)誤った答えを判断境界を鋭くするための明示的なペナルティメカニズム,(3)困難問題に対する学習シグナルを増幅する難易度の高い優位性再重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.0]
本稿では、事前モデル知識を用いて探索過程をガイドし、強化学習を高速化することを提案する。
我々は,Q-函数の最適Q-函数への収束に関する理論的保証を,探索政策のクラスとして提案する。
論文 参考訳(メタデータ) (2025-04-08T12:33:38Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。