論文の概要: Prompted Policy Search: Reinforcement Learning through Linguistic and Numerical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2511.21928v1
- Date: Wed, 26 Nov 2025 21:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.302928
- Title: Prompted Policy Search: Reinforcement Learning through Linguistic and Numerical Reasoning in LLMs
- Title(参考訳): Prompted Policy Search:LLMにおける言語・数値推論による強化学習
- Authors: Yifan Zhou, Sachin Grover, Mohamed El Mistiri, Kamalesh Kalirathnam, Pratyush Kerhalkar, Swaroop Mishra, Neelesh Kumar, Sanket Gaurav, Oya Aran, Heni Ben Amor,
- Abstract要約: 強化学習(RL)は伝統的にスカラー報酬信号に依存しており、現実世界のタスクでしばしば利用できる豊富な意味知識を活用する能力を制限する。
対照的に、人間は言語、事前知識、常識と数値的なフィードバックを組み合わせることで効率よく学習する。
本稿では,1つのフレームワークで数値的および言語的推論を統一する新しいRL手法であるPrompted Policy Search(ProPS)を紹介する。
- 参考スコア(独自算出の注目度): 20.026697570943497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning (RL) traditionally relies on scalar reward signals, limiting its ability to leverage the rich semantic knowledge often available in real-world tasks. In contrast, humans learn efficiently by combining numerical feedback with language, prior knowledge, and common sense. We introduce Prompted Policy Search (ProPS), a novel RL method that unifies numerical and linguistic reasoning within a single framework. Unlike prior work that augment existing RL components with language, ProPS places a large language model (LLM) at the center of the policy optimization loop-directly proposing policy updates based on both reward feedback and natural language input. We show that LLMs can perform numerical optimization in-context, and that incorporating semantic signals, such as goals, domain knowledge, and strategy hints can lead to more informed exploration and sample-efficient learning. ProPS is evaluated across fifteen Gymnasium tasks, spanning classic control, Atari games, and MuJoCo environments, and compared to seven widely-adopted RL algorithms (e.g., PPO, SAC, TRPO). It outperforms all baselines on eight out of fifteen tasks and demonstrates substantial gains when provided with domain knowledge. These results highlight the potential of unifying semantics and numerics for transparent, generalizable, and human-aligned RL.
- Abstract(参考訳): 強化学習(RL)は伝統的にスカラー報酬信号に依存しており、現実世界のタスクでしばしば利用できる豊富な意味知識を活用する能力を制限する。
対照的に、人間は言語、事前知識、常識と数値的なフィードバックを組み合わせることで効率よく学習する。
本稿では,1つのフレームワークで数値的および言語的推論を統一する新しいRL手法であるPrompted Policy Search(ProPS)を紹介する。
既存のRLコンポーネントを言語で拡張する以前の作業とは異なり、ProPSは、報酬フィードバックと自然言語入力の両方に基づいてポリシー更新をループ的に提案するポリシー最適化の中心に、大きな言語モデル(LLM)を配置する。
LLMはコンテキスト内で数値的な最適化を行うことができ、目標やドメイン知識、戦略ヒントといった意味的なシグナルを組み込むことで、より深い探索やサンプル効率の学習が可能になることを示す。
ProPSは15のGymnasiumタスク、古典的なコントロール、Atariゲーム、MuJoCo環境、広く採用されている7つのRLアルゴリズム(例えば、PPO、SAC、TRPO)で評価されている。
15タスク中8タスクですべてのベースラインを上回り、ドメイン知識が提供されると大幅に向上します。
これらの結果は、透明で、一般化可能で、人間に準拠したRLに対して、意味論と数値を統一する可能性を強調している。
関連論文リスト
- Natural Language Reinforcement Learning [27.816215336574803]
自然言語強化学習(NLRL)は、RLの原則を自然言語に拡張するフレームワークである。
NLRLの中心はLVF(Language Value Function)であり、解釈可能な言語的物語としての価値を再定義する。
NLRLは、教師なし環境相互作用を通じて、RLライクなポリシーと価値トレーニングを実現するために実践的に実装できる。
論文 参考訳(メタデータ) (2024-11-21T15:57:02Z) - Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である
環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。
実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-07-04T14:33:47Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。