論文の概要: DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.03209v1
- Date: Tue, 06 May 2025 05:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.231093
- Title: DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning
- Title(参考訳): DYSTIL:強化学習のための大規模言語モデルを用いた動的戦略誘導
- Authors: Borui Wang, Kathleen McKeown, Rex Ying,
- Abstract要約: 専門家によるデモンストレーションからの強化学習は、長い間、困難な研究課題のままである。
行動クローニングとRLトレーニングを併用した既存の最先端手法は、一般化の貧弱さ、サンプル効率の低さ、モデルの解釈可能性の低さに悩まされることが多い。
本稿では,これらの制約を克服するために,大規模言語モデル (LLM) と統合された新たな戦略に基づく強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.336254612018404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from expert demonstrations has long remained a challenging research problem, and existing state-of-the-art methods using behavioral cloning plus further RL training often suffer from poor generalization, low sample efficiency, and poor model interpretability. Inspired by the strong reasoning abilities of large language models (LLMs), we propose a novel strategy-based reinforcement learning framework integrated with LLMs called DYnamic STrategy Induction with Llms for reinforcement learning (DYSTIL) to overcome these limitations. DYSTIL dynamically queries a strategy-generating LLM to induce textual strategies based on advantage estimations and expert demonstrations, and gradually internalizes induced strategies into the RL agent through policy optimization to improve its performance through boosting policy generalization and enhancing sample efficiency. It also provides a direct textual channel to observe and interpret the evolution of the policy's underlying strategies during training. We test DYSTIL over challenging RL environments from Minigrid and BabyAI, and empirically demonstrate that DYSTIL significantly outperforms state-of-the-art baseline methods by 17.75% in average success rate while also enjoying higher sample efficiency during the learning process.
- Abstract(参考訳): 専門家によるデモンストレーションによる強化学習は、長年にわたって困難な研究課題であり、行動クローニングとRLトレーニングの強化は、しばしば、一般化の貧弱、サンプル効率の低下、モデルの解釈可能性の低下に悩まされている。
大規模言語モデル(LLM)の強い推論能力に着想を得て,これらの制約を克服するために,Llmsを用いたDYnamic STrategy Injection(DYSTIL)と呼ばれるLLMと統合された戦略ベースの強化学習フレームワークを提案する。
DYSTIL は戦略生成 LLM を動的にクエリし、利点推定と専門家による実証に基づいてテキスト戦略を誘導し、ポリシー最適化を通じてRLエージェントへの誘導戦略を徐々に内部化し、ポリシーの一般化とサンプル効率の向上を通じてその性能を向上させる。
また、訓練中に政策の根底にある戦略の進化を観察し、解釈するための直接的なテキストチャネルも提供する。
我々は,Minigrid と BabyAI の RL 環境に挑戦する上で DYSTIL を試験し,DYSTIL が平均成功率 17.75% で最先端のベースライン法を著しく上回り,学習過程において高いサンプル効率を享受できることを実証的に実証した。
関連論文リスト
- How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Advancing NLP Models with Strategic Text Augmentation: A Comprehensive
Study of Augmentation Methods and Curriculum Strategies [0.0]
本研究では,さまざまなデータセットと自然言語処理(NLP)タスクにまたがるテキスト拡張手法の徹底的な評価を行う。
トピック分類や感情分析,攻撃的言語検出などのタスクにおいて,これらの手法がトレーニングセットを増強し,パフォーマンスを向上させる効果について検討した。
論文 参考訳(メタデータ) (2024-02-14T12:41:09Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。