論文の概要: Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement
- arxiv url: http://arxiv.org/abs/2304.14391v4
- Date: Tue, 23 Jan 2024 15:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 19:55:44.177508
- Title: Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement
- Title(参考訳): 構成シーン再構成のためのゼロショットプランナのエネルギーモデル
- Authors: Nikolaos Gkanatsios, Ayush Jain, Zhou Xian, Yunchu Zhang, Christopher
Atkeson, Katerina Fragkiadaki
- Abstract要約: このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 19.494104738436892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language is compositional; an instruction can express multiple relation
constraints to hold among objects in a scene that a robot is tasked to
rearrange. Our focus in this work is an instructable scene-rearranging
framework that generalizes to longer instructions and to spatial concept
compositions never seen at training time. We propose to represent
language-instructed spatial concepts with energy functions over relative object
arrangements. A language parser maps instructions to corresponding energy
functions and an open-vocabulary visual-language model grounds their arguments
to relevant objects in the scene. We generate goal scene configurations by
gradient descent on the sum of energy functions, one per language predicate in
the instruction. Local vision-based policies then re-locate objects to the
inferred goal locations. We test our model on established instruction-guided
manipulation benchmarks, as well as benchmarks of compositional instructions we
introduce. We show our model can execute highly compositional instructions
zero-shot in simulation and in the real world. It outperforms
language-to-action reactive policies and Large Language Model planners by a
large margin, especially for long instructions that involve compositions of
multiple spatial concepts. Simulation and real-world robot execution videos, as
well as our code and datasets are publicly available on our website:
https://ebmplanner.github.io.
- Abstract(参考訳): 言語は構成的であり、命令はロボットが再配置を行うシーンにおいて、オブジェクト間で保持する複数の関係制約を表現することができる。
本研究の焦点は、より長い指示や訓練時に見たことのない空間概念の構成を一般化する、インストラクタブルなシーン再構成フレームワークである。
本稿では,相対的な物体配置よりもエネルギー関数で言語に指示された空間概念を表現することを提案する。
言語パーサは命令を対応するエネルギー関数にマッピングし、オープンボキャブラリな視覚言語モデルはシーン内の関連するオブジェクトに対する議論を基礎としている。
我々は,各言語が指示を述語するエネルギー関数の和の勾配勾配によるゴールシーン構成を生成する。
ローカルビジョンベースのポリシーでは、オブジェクトを推論されたゴールロケーションに再配置する。
我々は、確立された命令誘導操作ベンチマークと、導入した構成命令のベンチマークを用いて、モデルをテストする。
我々は,シミュレーションや実世界において,高い合成命令をゼロショットで実行可能であることを示す。
言語から反応する反応ポリシーと大規模言語モデルプランナーを大きなマージンで上回り、特に複数の空間概念の合成を含む長い命令に対して優れている。
シミュレーションと実世界のロボット実行ビデオ、および私たちのコードとデータセットは、当社のウェブサイトで公開されています。
関連論文リスト
- Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following [101.55727845195969]
本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。
ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。
ECLは完全に透明で、長期計画において段階的に解釈可能である。
論文 参考訳(メタデータ) (2023-04-07T17:59:34Z) - Object-centric Inference for Language Conditioned Placement: A
Foundation Model based Approach [12.016988248578027]
本稿では,ロボットが言語命令の空間的制約をすべて満たした配置を生成するための,言語条件付きオブジェクト配置の課題に焦点を当てる。
提案するオブジェクト中心フレームワークは,参照対象と配置空間の関係を基底として基礎モデルを利用する。
論文 参考訳(メタデータ) (2023-04-06T06:51:15Z) - Differentiable Parsing and Visual Grounding of Verbal Instructions for
Object Placement [26.74189486483276]
言語条件のオブジェクト配置のためのPARsing and visual GrOuNdingフレームワークであるParaGonを紹介する。
言語命令をオブジェクト間の関係に解析し、それらのオブジェクトを視覚的なシーンでグラウンド化する。
ParaGonは、これらの手順をすべてニューラルネットワークにエンコードして、エンドツーエンドのトレーニングを行う。
論文 参考訳(メタデータ) (2022-10-01T07:36:51Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。