Fugu-MT 論文翻訳(概要): LLM Augmented Hierarchical Agents

論文の概要: LLM Augmented Hierarchical Agents

arxiv url: http://arxiv.org/abs/2311.05596v1
Date: Thu, 9 Nov 2023 18:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 13:59:39.618575
Title: LLM Augmented Hierarchical Agents
Title（参考訳）: LLM強化階層型エージェント
Authors: Bharat Prakash, Tim Oates, Tinoosh Mohsenin
Abstract要約: 強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
参考スコア（独自算出の注目度）: 4.574041097539858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving long-horizon, temporally-extended tasks using Reinforcement Learning (RL) is challenging, compounded by the common practice of learning without prior knowledge (or tabula rasa learning). Humans can generate and execute plans with temporally-extended actions and quickly learn to perform new tasks because we almost never solve problems from scratch. We want autonomous agents to have this same ability. Recently, LLMs have been shown to encode a tremendous amount of knowledge about the world and to perform impressive in-context learning and reasoning. However, using LLMs to solve real world problems is hard because they are not grounded in the current task. In this paper we exploit the planning capabilities of LLMs while using RL to provide learning from the environment, resulting in a hierarchical agent that uses LLMs to solve long-horizon tasks. Instead of completely relying on LLMs, they guide a high-level policy, making learning significantly more sample efficient. This approach is evaluated in simulation environments such as MiniGrid, SkillHack, and Crafter, and on a real robot arm in block manipulation tasks. We show that agents trained using our approach outperform other baselines methods and, once trained, don't need access to LLMs during deployment.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり, 事前知識(あるいは表層ラサ学習)を伴わない学習が一般的である。人間は、時間的に拡張されたアクションで計画を作成し実行することができ、スクラッチからほとんど解決しないので、新しいタスクを迅速に実行することを学ぶことができる。自律的なエージェントが同じ能力を持つようにしたいのです。近年、LLMは世界に関する膨大な知識を符号化し、テキスト内学習と推論を印象的に行うことが示されている。しかし,LLMを用いて現実の問題を解決することは,現状の課題に根ざしていないため難しい。本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。 LLMに完全に依存するのではなく、高いレベルのポリシーをガイドし、学習をはるかに効率的にする。このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。我々は、我々のアプローチを用いて訓練されたエージェントが、他のベースラインメソッドよりも優れていることを示す。

関連論文リスト

WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.64361927346957]
本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
論文参考訳（メタデータ） (2025-04-22T10:58:27Z)
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning [48.098838027631494]
現実の環境で活動する身体的エージェントは、曖昧で特定されていない人間の指示を解釈しなければならない。本研究では,Ask-to-Actタスクを導入し,具体的エージェントがホーム環境においてあいまいな指示を受けると,特定のオブジェクトインスタンスをフェッチしなければならない。 LLM生成報酬を用いたオンライン強化学習(RL)を用いた視覚言語行動(VLA)ポリシーとして,マルチモーダル大規模言語モデル(MLLM)を微調整する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-04-01T15:41:50Z)
Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文参考訳（メタデータ） (2024-10-09T23:37:36Z)
RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
大規模言語モデル(LLM)は、従来の自然言語処理以外の領域で顕著な成功を収めている。 LLMエージェントのプロンプトにおけるステップバイステップ命令を最適化する「段階的な降下」を行う新しい手法である textscRePrompt を提案する。
論文参考訳（メタデータ） (2024-06-17T01:23:11Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文参考訳（メタデータ） (2024-03-18T17:51:16Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文参考訳（メタデータ） (2023-10-14T00:07:03Z)
LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs [25.4184470735779]
LLMは、以前は人間の能力専用と考えられていたクラウドソーシングタスクにおいて、人間のような行動の複製を約束している。 LLMがより複雑なクラウドソーシングパイプラインを複製できるかどうかを検討する。
論文参考訳（メタデータ） (2023-07-19T17:54:43Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。