論文の概要: KITE: Keypoint-Conditioned Policies for Semantic Manipulation
- arxiv url: http://arxiv.org/abs/2306.16605v2
- Date: Thu, 6 Jul 2023 11:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 16:50:30.313773
- Title: KITE: Keypoint-Conditioned Policies for Semantic Manipulation
- Title(参考訳): KITE:セマンティックマニピュレーションのためのキーポイント型ポリシー
- Authors: Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg
- Abstract要約: Keypoints + Instructions to Execution (KITE) はセマンティック操作のための2段階のフレームワークである。
まず、2D画像キーポイントを通して視覚シーンに入力命令を接地する。
KITEは学習したキーポイント条件のスキルを実行し、命令を実行する。
- 参考スコア(独自算出の注目度): 24.922755496815164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While natural language offers a convenient shared interface for humans and
robots, enabling robots to interpret and follow language commands remains a
longstanding challenge in manipulation. A crucial step to realizing a
performant instruction-following robot is achieving semantic manipulation,
where a robot interprets language at different specificities, from high-level
instructions like "Pick up the stuffed animal" to more detailed inputs like
"Grab the left ear of the elephant." To tackle this, we propose Keypoints +
Instructions to Execution (KITE), a two-step framework for semantic
manipulation which attends to both scene semantics (distinguishing between
different objects in a visual scene) and object semantics (precisely localizing
different parts within an object instance). KITE first grounds an input
instruction in a visual scene through 2D image keypoints, providing a highly
accurate object-centric bias for downstream action inference. Provided an RGB-D
scene observation, KITE then executes a learned keypoint-conditioned skill to
carry out the instruction. The combined precision of keypoints and
parameterized skills enables fine-grained manipulation with generalization to
scene and object variations. Empirically, we demonstrate KITE in 3 real-world
environments: long-horizon 6-DoF tabletop manipulation, semantic grasping, and
a high-precision coffee-making task. In these settings, KITE achieves a 75%,
70%, and 71% overall success rate for instruction-following, respectively. KITE
outperforms frameworks that opt for pre-trained visual language models over
keypoint-based grounding, or omit skills in favor of end-to-end visuomotor
control, all while being trained from fewer or comparable amounts of
demonstrations. Supplementary material, datasets, code, and videos can be found
on our website: http://tinyurl.com/kite-site.
- Abstract(参考訳): 自然言語は人間とロボットに便利な共有インターフェースを提供するが、ロボットが言語コマンドを解釈し従わせることは、操作において長年の課題である。
動作指示追従ロボットを実現するための重要なステップは、ロボットが「ぬいぐるみを拾い上げる」といった高レベルな指示から「象の左耳を磨く」といったより詳細な入力まで、異なる特異性で言語を解釈する意味操作を実現することである。
そこで我々は,シーンセマンティクス(視覚的場面における異なるオブジェクトの識別)とオブジェクトセマンティクス(正確にはオブジェクトインスタンス内の異なる部分のローカライズ)の両方に対応する意味操作のための2段階のフレームワークであるKeypoints + Instructions to Execution (KITE)を提案する。
KITEは、まず2次元画像キーポイントを通して視覚シーンに入力命令を接地し、下流アクション推論のための高精度なオブジェクト中心バイアスを提供する。
KITEはRGB-Dシーンの観察を行い、学習されたキーポイント条件のスキルを実行して命令を実行する。
キーポイントの精度とパラメータ化スキルを組み合わせることで、シーンやオブジェクトのバリエーションを一般化したきめ細かい操作が可能になる。
実世界の3つの環境 – 長距離6-DoFテーブルトップ操作,意味的把握,高精度コーヒー製造タスク – において,KITEを実証した。
これらの設定では、KITEはそれぞれ75%、70%、全体の71%の成功率を達成している。
KITEは、キーポイントベースのグラウンドよりも事前訓練されたビジュアル言語モデルを選択するフレームワークや、エンドツーエンドのビジュモータコントロールを優先して省略スキルを向上する。
追加資料、データセット、コード、ビデオは、私たちのWebサイトにある。
関連論文リスト
- NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Leveraging Large (Visual) Language Models for Robot 3D Scene
Understanding [25.860680905256174]
本研究では,シーン理解に共通した感覚を与えるために,事前学習言語モデルを用いることを検討する。
両カテゴリの最良のアプローチは、$sim 70%$の部屋分類精度が得られる。
論文 参考訳(メタデータ) (2022-09-12T21:36:58Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。