論文の概要: Learning Compositional Behaviors from Demonstration and Language
- arxiv url: http://arxiv.org/abs/2505.21981v1
- Date: Wed, 28 May 2025 05:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.42399
- Title: Learning Compositional Behaviors from Demonstration and Language
- Title(参考訳): 実証と言語から構成行動を学ぶ
- Authors: Weiyu Liu, Neil Nie, Ruohan Zhang, Jiayuan Mao, Jiajun Wu,
- Abstract要約: BLADEは、模倣学習とモデルベースの計画を統合することで、長距離ロボット操作のためのフレームワークである。
我々は、新しい初期状態、外部の摂動、新しい目標など、新しい状況に一般化する上で重要な能力を示す。
- 参考スコア(独自算出の注目度): 28.352574199884852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Behavior from Language and Demonstration (BLADE), a framework for long-horizon robotic manipulation by integrating imitation learning and model-based planning. BLADE leverages language-annotated demonstrations, extracts abstract action knowledge from large language models (LLMs), and constructs a library of structured, high-level action representations. These representations include preconditions and effects grounded in visual perception for each high-level action, along with corresponding controllers implemented as neural network-based policies. BLADE can recover such structured representations automatically, without manually labeled states or symbolic definitions. BLADE shows significant capabilities in generalizing to novel situations, including novel initial states, external state perturbations, and novel goals. We validate the effectiveness of our approach both in simulation and on real robots with a diverse set of objects with articulated parts, partial observability, and geometric constraints.
- Abstract(参考訳): 本稿では,模倣学習とモデルベースプランニングを統合した長期ロボット操作のためのフレームワークBLADEを紹介する。
BLADEは、言語アノテーションによるデモンストレーションを活用し、大きな言語モデル(LLM)から抽象的なアクション知識を抽出し、構造化されたハイレベルなアクション表現のライブラリを構築する。
これらの表現には、ニューラルネットワークベースのポリシーとして実装された対応するコントローラとともに、各ハイレベルアクションに対する視覚的知覚に基づく前提条件と効果が含まれる。
BLADEは、手動でラベル付けされた状態やシンボル定義なしで、そのような構造化された表現を自動的に復元することができる。
BLADEは、新しい初期状態、外部状態の摂動、新しい目標など、新しい状況に一般化する上で重要な能力を示している。
提案手法の有効性をシミュレーションと実ロボットの両面において検証し,各部位,部分的可観測性,幾何学的制約を有する多種多様な物体群を用いて検証した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。