論文の概要: PARL: Prompt-based Agents for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.21306v1
- Date: Fri, 24 Oct 2025 10:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.431947
- Title: PARL: Prompt-based Agents for Reinforcement Learning
- Title(参考訳): PARL:強化学習のためのプロンプトベースエージェント
- Authors: Yarik Menchaca Resendiz, Roman Klinger,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語で表現されたタスクに対して高い性能を示す。
我々は、グリッド世界の位置を解釈するなど、構造化された非言語的推論について研究する。
本稿では,LLM を RL エージェントとして活用する PARL (Prompt-based Agent for Reinforcement Learning) を提案する。
- 参考スコア(独自算出の注目度): 8.465228064780742
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated high performance on tasks expressed in natural language, particularly in zero- or few-shot settings. These are typically framed as supervised (e.g., classification) or unsupervised (e.g., clustering) problems. However, limited work evaluates LLMs as agents in reinforcement learning (RL) tasks (e.g., playing games), where learning occurs through interaction with an environment and a reward system. While prior work focused on representing tasks that rely on a language representation, we study structured, non-linguistic reasoning - such as interpreting positions in a grid world. We therefore introduce PARL (Prompt-based Agent for Reinforcement Learning), a method that uses LLMs as RL agents through prompting, without any fine-tuning. PARL encodes actions, states, and rewards in the prompt, enabling the model to learn through trial-and-error interaction. We evaluate PARL on three standard RL tasks that do not entirely rely on natural language. We show that it can match or outperform traditional RL agents in simple environments by leveraging pretrained knowledge. However, we identify performance limitations in tasks that require complex mathematical operations or decoding states and actions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語で表されるタスク、特にゼロまたは少数ショット設定で高いパフォーマンスを示す。
これらは典型的には、教師なし(例えば分類)または教師なし(例えばクラスタリング)問題としてフレーム化される。
しかし,LLMを強化学習(RL)タスク(例えばゲーム)のエージェントとして評価し,環境との相互作用や報奨システムを通じて学習を行う。
これまでの研究は、言語表現に依存するタスクの表現に重点を置いていたが、グリッドの世界における位置の解釈など、構造化された非言語推論を研究した。
そこで我々は,LLM を RL エージェントとして使用する PARL (Prompt-based Reinforcement Learning Agent for Reinforcement Learning) を導入する。
PARLは、アクション、状態、報酬をプロンプトにエンコードし、トライアルとエラーのインタラクションを通じてモデルを学習することを可能にする。
自然言語に依存しない3つの標準RLタスクに対してPARLを評価する。
事前学習した知識を生かして,従来のRLエージェントと単純な環境下でのマッチングや性能の向上を図っている。
しかし、複雑な数学的操作や状態や動作の復号化を必要とするタスクのパフォーマンス制限を識別する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。
複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文 参考訳(メタデータ) (2023-03-30T16:01:52Z) - Collaborating with language models for embodied reasoning [30.82976922056617]
複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
論文 参考訳(メタデータ) (2023-02-01T21:26:32Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。