論文の概要: True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.14151v2
- Date: Mon, 11 Mar 2024 03:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:30:31.882324
- Title: True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning
- Title(参考訳): 実践から真に学ぶ:強化学習による身体環境とのLLMの調整
- Authors: Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo
An
- Abstract要約: 大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
- 参考スコア(独自算出の注目度): 37.10401435242991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive performance across numerous tasks, large language
models (LLMs) often fail in solving simple decision-making tasks due to the
misalignment of the knowledge in LLMs with environments. On the contrary,
reinforcement learning (RL) agents learn policies from scratch, which makes
them always align with environments but difficult to incorporate prior
knowledge for efficient explorations. To narrow the gap, we propose TWOSOME, a
novel general online framework that deploys LLMs as decision-making agents to
efficiently interact and align with embodied environments via RL without
requiring any prepared datasets or prior knowledge of the environments.
Firstly, we query the joint probabilities of each valid action with LLMs to
form behavior policies. Then, to enhance the stability and robustness of the
policies, we propose two normalization methods and summarize four prompt design
principles. Finally, we design a novel parameter-efficient training
architecture where the actor and critic share one frozen LLM equipped with
low-rank adapters (LoRA) updated by PPO. We conduct extensive experiments to
evaluate TWOSOME. i) TWOSOME exhibits significantly better sample efficiency
and performance compared to the conventional RL method, PPO, and prompt tuning
method, SayCan, in both classical decision-making environment, Overcooked, and
simulated household environment, VirtualHome. ii) Benefiting from LLMs'
open-vocabulary feature, TWOSOME shows superior generalization ability to
unseen tasks. iii) Under our framework, there is no significant loss of the
LLMs' original ability during online PPO finetuning.
- Abstract(参考訳): 多数のタスクにまたがるパフォーマンスにもかかわらず、LLMの知識と環境とのミスアライメントのため、大きな言語モデル(LLM)は単純な意思決定タスクの解決に失敗することが多い。
それとは対照的に、強化学習(RL)エージェントはスクラッチからポリシーを学ぶため、常に環境と整合するが、効率的な探索のために事前の知識を組み込むことは困難である。
このギャップを狭めるために,LLMを意思決定エージェントとして展開する新しい汎用オンラインフレームワークであるTWOSOMEを提案する。
まず、各有効な行動がLCMと協調して行動ポリシーを形成する確率を問う。
次に,ポリシーの安定性と堅牢性を高めるため,2つの正規化手法を提案し,4つの素早い設計原則を要約する。
最後に,PPOによって更新された低ランクアダプタ (LoRA) を備えた冷凍LDMをアクターと批評家が共有する,パラメータ効率のトレーニングアーキテクチャを設計する。
我々はTWOSOMEを評価するための広範囲な実験を行った。
一) 従来のrl法, ppo法, 即席チューニング法, saycan法と比較して, 古典的意思決定環境, 過剰調理, 模擬家庭環境, virtualhomeと比較して, 試料効率, 性能が有意に良好である。
ii) llms のオープンボキャブラリー機能により,twosome はタスクを検知する上で優れた一般化能力を示す。
三 当社の枠組みでは、オンラインPPOファインタニングにおけるLLMの本来の能力に大きな損失はない。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Grounding Large Language Models in Interactive Environments with Online
Reinforcement Learning [33.36842078780815]
機能的接地によるアライメントを実現するためのアプローチ(GLAM)について検討する。
エージェントが環境と対話するにつれて、段階的に更新されるポリシーとしてLLMを使用するエージェントを考える。
機能的グラウンドの高レベルな形態と空間的・ナビゲーションタスクのセットを研究するために設計された対話型テキスト環境を用いて,いくつかの科学的問題を研究する。
論文 参考訳(メタデータ) (2023-02-06T10:01:08Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。