論文の概要: OpenD: A Benchmark for Language-Driven Door and Drawer Opening
- arxiv url: http://arxiv.org/abs/2212.05211v1
- Date: Sat, 10 Dec 2022 05:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:24:13.663479
- Title: OpenD: A Benchmark for Language-Driven Door and Drawer Opening
- Title(参考訳): OpenD: 言語駆動のドアと描画のベンチマーク
- Authors: Yizhou Zhao, Qiaozi Gao, Liang Qiu, Govind Thattai, Gaurav S. Sukhatme
- Abstract要約: 私たちは、手を使ってキャビネットドアや引き出しを開く方法を学ぶためのベンチマークであるOPENDを紹介します。
深層ニューラルネットワークとルールベースコントローラからなる多段階プランナを提案する。
- 参考スコア(独自算出の注目度): 17.52635096739433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce OPEND, a benchmark for learning how to use a hand to open
cabinet doors or drawers in a photo-realistic and physics-reliable simulation
environment driven by language instruction. To solve the task, we propose a
multi-step planner composed of a deep neural network and rule-base controllers.
The network is utilized to capture spatial relationships from images and
understand semantic meaning from language instructions. Controllers efficiently
execute the plan based on the spatial and semantic understanding. We evaluate
our system by measuring its zero-shot performance in test data set.
Experimental results demonstrate the effectiveness of decision planning by our
multi-step planner for different hands, while suggesting that there is
significant room for developing better models to address the challenge brought
by language understanding, spatial reasoning, and long-term manipulation. We
will release OPEND and host challenges to promote future research in this area.
- Abstract(参考訳): 言語指導によって駆動される光リアルで物理信頼性のあるシミュレーション環境において,手を使ってキャビネットドアや引き出しを開く方法を学ぶためのベンチマークであるOPENDを紹介する。
そこで本研究では,深層ニューラルネットワークとルールベースコントローラからなる多段階プランナを提案する。
このネットワークは、画像から空間関係を捉え、言語命令から意味を理解するために利用される。
コントローラは空間的および意味的理解に基づいて効率的に計画を実行する。
テストデータセットにおけるゼロショット性能を計測することでシステムを評価する。
実験結果から,言語理解,空間的推論,長期的操作といった課題に対処するために,より良いモデルを開発するための重要な余地があることが示唆された。
我々はOPENDをリリースし、この分野における今後の研究を促進するための課題を主催する。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Using Left and Right Brains Together: Towards Vision and Language
Planning [95.47128850991815]
本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-16T09:46:20Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-04-27T17:55:13Z) - GoalNet: Inferring Conjunctive Goal Predicates from Human Plan
Demonstrations for Robot Instruction Following [15.405156791794191]
私たちのゴールは、自然言語命令として指定されたタスクを実行するために、ロボットがアクションのシーケンスを学習できるようにすることです。
目的予測の文脈的およびタスク依存的推論のための新しいニューロシンボリックモデルであるGoalNetを導入する。
GoalNetは、最先端のルールベースのアプローチと比較してタスク完了率を大幅に改善した(51%)。
論文 参考訳(メタデータ) (2022-05-14T15:14:40Z) - Modular Framework for Visuomotor Language Grounding [57.93906820466519]
自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。
本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
論文 参考訳(メタデータ) (2021-09-05T20:11:53Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Deep compositional robotic planners that follow natural language
commands [21.481360281719006]
サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。
我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
論文 参考訳(メタデータ) (2020-02-12T19:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。