論文の概要: SEAL: SEmantic-Augmented Imitation Learning via Language Model
- arxiv url: http://arxiv.org/abs/2410.02231v1
- Date: Thu, 3 Oct 2024 05:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 07:46:05.757400
- Title: SEAL: SEmantic-Augmented Imitation Learning via Language Model
- Title(参考訳): SEAL: 言語モデルによるSemantic-Augmented Imitation Learning
- Authors: Chengyang Gu, Yuxin Pan, Haotian Bai, Hui Xiong, Yize Chen,
- Abstract要約: SEALは、意味的に意味のあるサブゴール表現に対して、サブゴール空間とプレラベル状態を指定するための新しいフレームワークである。
SEALはデュアルエンコーダ構造を採用し、教師なしLLM誘導サブゴール学習と教師なしベクトル量子化を組み合わせた。
実験の結果,SEALは最先端のHIL法やLLMに基づく計画手法よりも優れていた。
- 参考スコア(独自算出の注目度): 16.345410506033915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Imitation Learning (HIL) is a promising approach for tackling long-horizon decision-making tasks. While it is a challenging task due to the lack of detailed supervisory labels for sub-goal learning, and reliance on hundreds to thousands of expert demonstrations. In this work, we introduce SEAL, a novel framework that leverages Large Language Models (LLMs)'s powerful semantic and world knowledge for both specifying sub-goal space and pre-labeling states to semantically meaningful sub-goal representations without prior knowledge of task hierarchies. SEAL employs a dual-encoder structure, combining supervised LLM-guided sub-goal learning with unsupervised Vector Quantization (VQ) for more robust sub-goal representations. Additionally, SEAL incorporates a transition-augmented low-level planner for improved adaptation to sub-goal transitions. Our experiments demonstrate that SEAL outperforms state-of-the-art HIL methods and LLM-based planning approaches, particularly in settings with small expert datasets and complex long-horizon tasks.
- Abstract(参考訳): 階層的模倣学習(Hierarchical Imitation Learning, HIL)は、長期的な意思決定タスクに取り組むための有望なアプローチである。
サブゴール学習のための詳細な監督ラベルがなく、何百から何千もの専門家によるデモンストレーションに依存しているため、これは難しい作業である。
本研究では,Large Language Models(LLMs)の強力な意味と世界知識を活用して,タスク階層の事前知識を必要とせず,意味的に意味のあるサブゴール表現を実現するためのSEALを紹介する。
SEALはデュアルエンコーダ構造を採用し、教師付きLLM誘導サブゴール学習と教師なしベクトル量子化(VQ)を組み合わせることで、より堅牢なサブゴール表現を実現している。
さらにSEALは、サブゴール遷移への適応を改善するために、トランジッション強化された低レベルプランナーを組み込んでいる。
実験の結果,SEAL は現状の HIL 手法や LLM に基づく計画手法よりも優れており,特に小規模な専門家データセットや複雑な長期タスクを用いた場合の方が優れていることがわかった。
関連論文リスト
- World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Self-driven Grounding: Large Language Model Agents with Automatical
Language-aligned Skill Learning [38.038143548554686]
大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本稿では,自己駆動型スキル学習でLLMを自動的に,段階的にグラウンド化するための,自己駆動型グラウンディングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-04T04:31:24Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。