Fugu-MT 論文翻訳(概要): Grounding Language Plans in Demonstrations Through Counterfactual Perturbations

論文の概要: Grounding Language Plans in Demonstrations Through Counterfactual Perturbations

arxiv url: http://arxiv.org/abs/2403.17124v1
Date: Mon, 25 Mar 2024 19:04:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 19:45:52.725084
Title: Grounding Language Plans in Demonstrations Through Counterfactual Perturbations
Title（参考訳）: 対物摂動による実証における接地言語計画
Authors: Yanwei Wang, Tsun-Hsuan Wang, Jiayuan Mao, Michael Hagenow, Julie Shah,
Abstract要約: 物理領域における大規模言語モデルの常識的推論を基礎づけることは、AIを具現化するための重要な問題でありながら未解決である。提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
参考スコア（独自算出の注目度）: 25.19071357445557
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Grounding the common-sense reasoning of Large Language Models in physical domains remains a pivotal yet unsolved problem for embodied AI. Whereas prior works have focused on leveraging LLMs directly for planning in symbolic spaces, this work uses LLMs to guide the search of task structures and constraints implicit in multi-step demonstrations. Specifically, we borrow from manipulation planning literature the concept of mode families, which group robot configurations by specific motion constraints, to serve as an abstraction layer between the high-level language representations of an LLM and the low-level physical trajectories of a robot. By replaying a few human demonstrations with synthetic perturbations, we generate coverage over the demonstrations' state space with additional successful executions as well as counterfactuals that fail the task. Our explanation-based learning framework trains an end-to-end differentiable neural network to predict successful trajectories from failures and as a by-product learns classifiers that ground low-level states and images in mode families without dense labeling. The learned grounding classifiers can further be used to translate language plans into reactive policies in the physical domain in an interpretable manner. We show our approach improves the interpretability and reactivity of imitation learning through 2D navigation and simulated and real robot manipulation tasks. Website: https://sites.google.com/view/grounding-plans
Abstract（参考訳）: 物理領域における大規模言語モデルの常識的推論を基礎づけることは、AIを具現化するための重要な問題でありながら未解決である。従来の研究は、LLMを記号空間の計画に直接活用することに重点を置いていたが、この研究は、多段階のデモにおいて暗黙的なタスク構造と制約の探索を誘導するためにLLMを用いている。具体的には、特定の動作制約によってロボットの構成をグループ化するモードファミリーの概念を、LLMの高レベル言語表現とロボットの低レベル物理軌道の抽象層として機能させる、という操作計画の文献から借用する。人工摂動でいくつかの人間のデモをリプレイすることで、実行がさらに成功し、タスクを失敗する反事実とともに、デモの状態空間のカバレッジを生成します。我々の説明に基づく学習フレームワークは、終端から終端までの微分可能なニューラルネットワークをトレーニングし、失敗から軌道をうまく予測し、副産物として、高密度なラベル付けをせずにモードファミリ内の低レベル状態とイメージを基底とする分類器を学習する。学習された基底分類器は、解釈可能な方法で言語プランを物理領域のリアクティブポリシーに変換するためにさらに使用できる。提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。 Webサイト: https://sites.google.com/view/grounding-plans

関連論文リスト

AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making [35.83717913117858]
AntiGroundingは、命令のグラウンディングプロセスをリバースする新しいフレームワークである。候補アクションをVLM表現空間に直接持ち上げる。複数のビューからトラジェクトリを描画し、命令ベースの意思決定に構造化された視覚的質問応答を使用する。
論文参考訳（メタデータ） (2025-06-14T07:11:44Z)
Learning Compositional Behaviors from Demonstration and Language [28.352574199884852]
BLADEは、模倣学習とモデルベースの計画を統合することで、長距離ロボット操作のためのフレームワークである。我々は、新しい初期状態、外部の摂動、新しい目標など、新しい状況に一般化する上で重要な能力を示す。
論文参考訳（メタデータ） (2025-05-28T05:19:59Z)
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning [33.441215858388986]
思考の接地連鎖とルックアヘッド空間推論によるマルチモーダル行動モデルEmma-X 思考の接地連鎖とルックアヘッド空間推論を併用したマルチモーダル行動モデルEmma-Xを提案する。 Emma-Xは、特に空間的推論を必要とする現実世界のロボットタスクにおいて、競争ベースラインよりも優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-16T16:58:28Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。 methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文参考訳（メタデータ） (2024-05-08T04:14:06Z)
Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文参考訳（メタデータ） (2024-02-28T23:57:04Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文参考訳（メタデータ） (2023-07-01T12:51:02Z)
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-03-01T22:58:50Z)
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文参考訳（メタデータ） (2022-01-18T18:59:45Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Transferable Task Execution from Pixels through Deep Planning Domain Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。 DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文参考訳（メタデータ） (2020-03-08T05:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。