論文の概要: LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2310.09454v1
- Date: Sat, 14 Oct 2023 00:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:23:33.813093
- Title: LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents
- Title(参考訳): LgTS:強化学習エージェントのためのLLM生成サブゴールを用いた動的タスクサンプリング
- Authors: Yash Shukla, Wenchang Gao, Vasanth Sarathy, Alvaro Velasquez, Robert
Wright, Jivko Sinapov
- Abstract要約: LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
- 参考スコア(独自算出の注目度): 10.936460061405157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in reasoning abilities of Large Language Models (LLM) has
promoted their usage in problems that require high-level planning for robots
and artificial agents. However, current techniques that utilize LLMs for such
planning tasks make certain key assumptions such as, access to datasets that
permit finetuning, meticulously engineered prompts that only provide relevant
and essential information to the LLM, and most importantly, a deterministic
approach to allow execution of the LLM responses either in the form of existing
policies or plan operators. In this work, we propose LgTS (LLM-guided
Teacher-Student learning), a novel approach that explores the planning
abilities of LLMs to provide a graphical representation of the sub-goals to a
reinforcement learning (RL) agent that does not have access to the transition
dynamics of the environment. The RL agent uses Teacher-Student learning
algorithm to learn a set of successful policies for reaching the goal state
from the start state while simultaneously minimizing the number of
environmental interactions. Unlike previous methods that utilize LLMs, our
approach does not assume access to a propreitary or a fine-tuned LLM, nor does
it require pre-trained policies that achieve the sub-goals proposed by the LLM.
Through experiments on a gridworld based DoorKey domain and a search-and-rescue
inspired domain, we show that generating a graphical structure of sub-goals
helps in learning policies for the LLM proposed sub-goals and the
Teacher-Student learning algorithm minimizes the number of environment
interactions when the transition dynamics are unknown.
- Abstract(参考訳): 大規模言語モデル(llm)の推論能力の最近の進歩は、ロボットや人工エージェントの高レベルな計画を必要とする問題での利用を促進する。
しかし、これらの計画タスクにLLMを利用する現在の技術は、微調整を許可するデータセットへのアクセス、LLMに関連性があり不可欠な情報しか提供しない厳密に設計されたプロンプト、そして最も重要なのは、既存のポリシーまたはプランオペレーターの形式でLLM応答の実行を可能にする決定論的アプローチなどの重要な仮定を成している。
本研究では,LgTS(LLM-Guided Teacher-Student Learning)を提案する。LgTS(LLM-Guided Teacher-Student Learning)は,LLMの計画能力を探求し,環境の遷移力学にアクセスできない強化学習(RL)エージェントにサブゴールのグラフィカルな表現を提供する。
RLエージェントは、Teacher-Student学習アルゴリズムを使用して、開始状態から目標状態に到達するための一連の成功ポリシーを学習し、同時に環境相互作用の数を最小限にする。
LLMを利用する従来の方法とは違い,提案手法ではプロペトリタリーや微調整LDMへのアクセスを前提とせず,LLMが提案するサブゴールを達成するための事前訓練されたポリシーも必要としない。
グリッドワールドベースのドアキードメインと検索・アンド・リスパイアされたドメインの実験を通して、サブゴールのグラフィカルな構造を生成することは、llmが提案したサブゴールの学習方針に役立ち、教師・学生学習アルゴリズムは、遷移ダイナミクスが未知である場合の環境相互作用の数を最小化することを示した。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Assessing Logical Puzzle Solving in Large Language Models: Insights from
a Minesweeper Case Study [12.31609407864022]
我々は、Large Language Models (LLM) になじみのないフォーマットで設計された新しいタスク、Minesweeperを導入する。
このタスクは、隣接するオープンセルが提供する数値的な手がかりに基づいて、LLMが鉱山の位置を特定することを課題とする。
我々の実験は、先進的な GPT-4 モデルによる試行を含むもので、LLM は、この課題に必要な基礎的能力を持っているが、Minesweeper を解くために必要な一貫性のある多段階論理的推論プロセスにこれらを統合するのに苦労していることを示している。
論文 参考訳(メタデータ) (2023-11-13T15:11:26Z) - Self-driven Grounding: Large Language Model Agents with Automatical
Language-aligned Skill Learning [38.038143548554686]
大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本稿では,自己駆動型スキル学習でLLMを自動的に,段階的にグラウンド化するための,自己駆動型グラウンディングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-04T04:31:24Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。