論文の概要: Robo-ABC: Affordance Generalization Beyond Categories via Semantic
Correspondence for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2401.07487v1
- Date: Mon, 15 Jan 2024 06:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:57:50.155889
- Title: Robo-ABC: Affordance Generalization Beyond Categories via Semantic
Correspondence for Robot Manipulation
- Title(参考訳): Robo-ABC: ロボット操作のためのセマンティック対応によるカテゴリを越えたアフォーマンス一般化
- Authors: Yuanchen Ju, Kaizhe Hu, Guowei Zhang, Gu Zhang, Mingrun Jiang, Huazhe
Xu
- Abstract要約: 本稿では,ロボット操作のためのフレームワークであるRobo-ABCについて紹介する。
本稿では,Robo-ABCが視覚的可視性検索の精度を大幅に向上させることを示す。
Robo-ABCは85.7%の成功率を達成した。
- 参考スコア(独自算出の注目度): 20.69293648286978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling robotic manipulation that generalizes to out-of-distribution scenes
is a crucial step toward open-world embodied intelligence. For human beings,
this ability is rooted in the understanding of semantic correspondence among
objects, which naturally transfers the interaction experience of familiar
objects to novel ones. Although robots lack such a reservoir of interaction
experience, the vast availability of human videos on the Internet may serve as
a valuable resource, from which we extract an affordance memory including the
contact points. Inspired by the natural way humans think, we propose Robo-ABC:
when confronted with unfamiliar objects that require generalization, the robot
can acquire affordance by retrieving objects that share visual or semantic
similarities from the affordance memory. The next step is to map the contact
points of the retrieved objects to the new object. While establishing this
correspondence may present formidable challenges at first glance, recent
research finds it naturally arises from pre-trained diffusion models, enabling
affordance mapping even across disparate object categories. Through the
Robo-ABC framework, robots may generalize to manipulate out-of-category objects
in a zero-shot manner without any manual annotation, additional training, part
segmentation, pre-coded knowledge, or viewpoint restrictions. Quantitatively,
Robo-ABC significantly enhances the accuracy of visual affordance retrieval by
a large margin of 31.6% compared to state-of-the-art (SOTA) end-to-end
affordance models. We also conduct real-world experiments of cross-category
object-grasping tasks. Robo-ABC achieved a success rate of 85.7%, proving its
capacity for real-world tasks.
- Abstract(参考訳): アウト・オブ・ディストリビューションシーンに一般化するロボット操作は、オープンワールドのインボディードインテリジェンスにとって重要なステップだ。
人間にとって、この能力はオブジェクト間の意味的対応の理解に根ざしており、慣れ親しんだオブジェクトの対話体験を自然に新しいものに伝達する。
ロボットにはそのような対話体験が欠けているが、インターネット上の人間のビデオの膨大な可用性は貴重なリソースとなり、そこからコンタクトポイントを含むアプライアンスメモリを抽出する。
一般化を必要とする未知の物体に直面すると、ロボットは、アプライアンスメモリから視覚的または意味的な類似性を共有するオブジェクトを検索することで、アプライアンスを得ることができます。
次のステップは、取得したオブジェクトの接触点を新しいオブジェクトにマッピングすることです。
この対応の確立は一見すると恐ろしい課題となるかもしれないが、最近の研究では、事前訓練された拡散モデルから自然に発生することが分かり、異なる対象カテゴリをまたいでも可利用性マッピングが可能である。
robo-abcフレームワークを通じて、ロボットは、手動のアノテーション、追加のトレーニング、部分のセグメンテーション、事前コードされた知識、視点制限なしで、カテゴリー外のオブジェクトをゼロショットで操作できる。
定量的には、Robo-ABCは最先端(SOTA)の価格モデルと比較して視力検索の精度を31.6%大きく向上させる。
また,クロスカテゴリオブジェクト認識タスクの実世界実験も実施する。
Robo-ABCは85.7%の成功率を達成した。
関連論文リスト
- Compositional Zero-Shot Learning for Attribute-Based Object Reference in
Human-Robot Interaction [0.0]
言語対応ロボットは、特定の物体を視覚的知覚から識別するために、参照表現を理解できなければならない。
オブジェクトの視覚的な観察は、参照されたときに利用できなくなり、オブジェクトと属性の数は、オープンな世界でも非有界である可能性がある。
本研究では,属性のリストを用いて,オープンワールドにおける参照表現理解を行う属性ベースのゼロショット学習手法を実装した。
論文 参考訳(メタデータ) (2023-12-21T08:29:41Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。