論文の概要: DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.03209v1
- Date: Tue, 06 May 2025 05:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.231093
- Title: DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning
- Title(参考訳): DYSTIL:強化学習のための大規模言語モデルを用いた動的戦略誘導
- Authors: Borui Wang, Kathleen McKeown, Rex Ying,
- Abstract要約: 専門家によるデモンストレーションからの強化学習は、長い間、困難な研究課題のままである。
行動クローニングとRLトレーニングを併用した既存の最先端手法は、一般化の貧弱さ、サンプル効率の低さ、モデルの解釈可能性の低さに悩まされることが多い。
本稿では,これらの制約を克服するために,大規模言語モデル (LLM) と統合された新たな戦略に基づく強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.336254612018404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from expert demonstrations has long remained a challenging research problem, and existing state-of-the-art methods using behavioral cloning plus further RL training often suffer from poor generalization, low sample efficiency, and poor model interpretability. Inspired by the strong reasoning abilities of large language models (LLMs), we propose a novel strategy-based reinforcement learning framework integrated with LLMs called DYnamic STrategy Induction with Llms for reinforcement learning (DYSTIL) to overcome these limitations. DYSTIL dynamically queries a strategy-generating LLM to induce textual strategies based on advantage estimations and expert demonstrations, and gradually internalizes induced strategies into the RL agent through policy optimization to improve its performance through boosting policy generalization and enhancing sample efficiency. It also provides a direct textual channel to observe and interpret the evolution of the policy's underlying strategies during training. We test DYSTIL over challenging RL environments from Minigrid and BabyAI, and empirically demonstrate that DYSTIL significantly outperforms state-of-the-art baseline methods by 17.75% in average success rate while also enjoying higher sample efficiency during the learning process.
- Abstract(参考訳): 専門家によるデモンストレーションによる強化学習は、長年にわたって困難な研究課題であり、行動クローニングとRLトレーニングの強化は、しばしば、一般化の貧弱、サンプル効率の低下、モデルの解釈可能性の低下に悩まされている。
大規模言語モデル(LLM)の強い推論能力に着想を得て,これらの制約を克服するために,Llmsを用いたDYnamic STrategy Injection(DYSTIL)と呼ばれるLLMと統合された戦略ベースの強化学習フレームワークを提案する。
DYSTIL は戦略生成 LLM を動的にクエリし、利点推定と専門家による実証に基づいてテキスト戦略を誘導し、ポリシー最適化を通じてRLエージェントへの誘導戦略を徐々に内部化し、ポリシーの一般化とサンプル効率の向上を通じてその性能を向上させる。
また、訓練中に政策の根底にある戦略の進化を観察し、解釈するための直接的なテキストチャネルも提供する。
我々は,Minigrid と BabyAI の RL 環境に挑戦する上で DYSTIL を試験し,DYSTIL が平均成功率 17.75% で最先端のベースライン法を著しく上回り,学習過程において高いサンプル効率を享受できることを実証的に実証した。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism [10.288667305064065]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2025-06-30T09:02:45Z) - SAGE: Strategy-Adaptive Generation Engine for Query Rewriting [8.941793732446856]
本稿では,SAGE(Strategy-Adaptive Generation Engine)について紹介する。
SAGEは、最先端のNDCG@10の結果を新たに達成すると同時に、魅力的な創発的行動も明らかにする。
この結果から, 戦略誘導型RLは, よりスケーラブルで, 効率的で, 解釈可能なパラダイムを, 次世代の堅牢な情報検索システム開発に役立てることが示唆された。
論文 参考訳(メタデータ) (2025-06-24T16:50:51Z) - Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [17.421901873720156]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Advancing NLP Models with Strategic Text Augmentation: A Comprehensive
Study of Augmentation Methods and Curriculum Strategies [0.0]
本研究では,さまざまなデータセットと自然言語処理(NLP)タスクにまたがるテキスト拡張手法の徹底的な評価を行う。
トピック分類や感情分析,攻撃的言語検出などのタスクにおいて,これらの手法がトレーニングセットを増強し,パフォーマンスを向上させる効果について検討した。
論文 参考訳(メタデータ) (2024-02-14T12:41:09Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。