論文の概要: Self-driven Grounding: Large Language Model Agents with Automatical
Language-aligned Skill Learning
- arxiv url: http://arxiv.org/abs/2309.01352v1
- Date: Mon, 4 Sep 2023 04:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:52:43.597738
- Title: Self-driven Grounding: Large Language Model Agents with Automatical
Language-aligned Skill Learning
- Title(参考訳): 自己駆動グラウンド: 自動言語対応スキル学習を用いた大規模言語モデルエージェント
- Authors: Shaohui Peng, Xing Hu, Qi Yi, Rui Zhang, Jiaming Guo, Di Huang, Zikang
Tian, Ruizhi Chen, Zidong Du, Qi Guo, Yunji Chen, Ling Li
- Abstract要約: 大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本稿では,自己駆動型スキル学習でLLMを自動的に,段階的にグラウンド化するための,自己駆動型グラウンディングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.038143548554686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show their powerful automatic reasoning and
planning capability with a wealth of semantic knowledge about the human world.
However, the grounding problem still hinders the applications of LLMs in the
real-world environment. Existing studies try to fine-tune the LLM or utilize
pre-defined behavior APIs to bridge the LLMs and the environment, which not
only costs huge human efforts to customize for every single task but also
weakens the generality strengths of LLMs. To autonomously ground the LLM onto
the environment, we proposed the Self-Driven Grounding (SDG) framework to
automatically and progressively ground the LLM with self-driven skill learning.
SDG first employs the LLM to propose the hypothesis of sub-goals to achieve
tasks and then verify the feasibility of the hypothesis via interacting with
the underlying environment. Once verified, SDG can then learn generalized
skills with the guidance of these successfully grounded subgoals. These skills
can be further utilized to accomplish more complex tasks which fail to pass the
verification phase. Verified in the famous instruction following task
set-BabyAI, SDG achieves comparable performance in the most challenging tasks
compared with imitation learning methods that cost millions of demonstrations,
proving the effectiveness of learned skills and showing the feasibility and
efficiency of our framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
しかし、接地問題は現実の環境におけるllmの適用を妨げている。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本研究では,LLMを自律的に環境に接地するために,自己駆動型スキルラーニング(Self-Driven Grounding, SDG)フレームワークを提案する。
SDG はまず LLM を用いて,タスク達成のためのサブゴール仮説を提案し,その仮説の実現可能性を検証する。
検証が済んだら、SDGはこれらの接地されたサブゴールのガイダンスで一般化されたスキルを学ぶことができる。
これらのスキルは、検証フェーズを通過できないより複雑なタスクを達成するために、さらに活用することができる。
sdgは有名なタスクセットバイライの命令で検証され、数百万のデモンストレーションコストをかけた模倣学習手法と比較し、学習スキルの有効性を証明し、フレームワークの実現性と効率を示す最も困難なタスクで同等のパフォーマンスを達成します。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。