論文の概要: O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning
- arxiv url: http://arxiv.org/abs/2106.15087v1
- Date: Tue, 29 Jun 2021 04:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:21:08.065977
- Title: O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning
- Title(参考訳): O2O-Afford: アノテーションなしの大規模オブジェクト強調学習
- Authors: Kaichun Mo, Yuzhe Qin, Fanbo Xiang, Hao Su, Leonidas Guibas
- Abstract要約: 本稿では,様々なタスクに対するオブジェクト・オブジェクトのインタラクションを学習するための,統一的なアベイランス学習フレームワークを提案する。
我々は、人間のアノテーションやデモンストレーションを必要とせずに、大規模なオブジェクト・オブジェクト・アベイランス・ラーニングを行うことができる。
大規模合成データと実世界のデータを用いた実験により,提案手法の有効性が証明された。
- 参考スコア(独自算出の注目度): 24.9242853417825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrary to the vast literature in modeling, perceiving, and understanding
agent-object (e.g., human-object, hand-object, robot-object) interaction in
computer vision and robotics, very few past works have studied the task of
object-object interaction, which also plays an important role in robotic
manipulation and planning tasks. There is a rich space of object-object
interaction scenarios in our daily life, such as placing an object on a messy
tabletop, fitting an object inside a drawer, pushing an object using a tool,
etc. In this paper, we propose a unified affordance learning framework to learn
object-object interaction for various tasks. By constructing four object-object
interaction task environments using physical simulation (SAPIEN) and thousands
of ShapeNet models with rich geometric diversity, we are able to conduct
large-scale object-object affordance learning without the need for human
annotations or demonstrations. At the core of technical contribution, we
propose an object-kernel point convolution network to reason about detailed
interaction between two objects. Experiments on large-scale synthetic data and
real-world data prove the effectiveness of the proposed approach. Please refer
to the project webpage for code, data, video, and more materials:
https://cs.stanford.edu/~kaichun/o2oafford
- Abstract(参考訳): モデリング、知覚、およびエージェント・オブジェクトの理解に関する膨大な文献(例えば、人間-オブジェクト、手-オブジェクト、ロボット-オブジェクト)とは対照的に、ロボットの操作や計画作業において重要な役割を果たすオブジェクト-オブジェクトの相互作用のタスクについて研究した過去の著作はほとんどない。
私たちの日常生活には、乱雑なテーブルの上にオブジェクトを置く、引き出しの中にオブジェクトを入れる、ツールを使ってオブジェクトを押す、など、オブジェクトとオブジェクトの相互作用のシナリオが豊富にあります。
本稿では,様々なタスクのオブジェクト間インタラクションを学習するための統一的なアフォーアンス学習フレームワークを提案する。
物理シミュレーション(SAPIEN)と幾何多様性の豊富な何千ものShapeNetモデルを用いて、4つのオブジェクト・オブジェクト・インタラクション・タスク環境を構築することにより、人間のアノテーションやデモンストレーションを必要とせずに大規模オブジェクト・オブジェクト・アベイランス学習を行うことができる。
技術的コントリビューションの核心として、2つのオブジェクト間の詳細な相互作用を推論するオブジェクトカーネルポイント畳み込みネットワークを提案する。
大規模合成データと実世界データの実験により,提案手法の有効性が証明された。
code, data, video, and more materials: https://cs.stanford.edu/~kaichun/o2oafford
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Entity-Centric Reinforcement Learning for Object Manipulation from Pixels [22.104757862869526]
強化学習(RL)は、オブジェクト操作を学ぶための一般的なアプローチを提供する。
実際には、数個以上のオブジェクトを持つドメインは、次元の呪いのためにRLエージェントにとって難しい。
本稿では、複数のオブジェクトとその相互作用を表現するのに適した視覚的RLに対して、構造化されたアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-01T16:25:08Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Multi-Object Graph Affordance Network: Goal-Oriented Planning through Learned Compound Object Affordances [1.9336815376402723]
Multi-Object Graph Affordance Networkは、オブジェクトと化合物の相互作用を促進するロボットアクションの結果を学ぶことによって、複雑な複合オブジェクトの余裕をモデル化する。
シミュレーションと実環境の両方において,コンケーブ・コンベックス・オブジェクトを含む複合オブジェクトの可利用性をモデル化した。
論文 参考訳(メタデータ) (2023-09-19T08:40:46Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Object-agnostic Affordance Categorization via Unsupervised Learning of
Graph Embeddings [6.371828910727037]
オブジェクトのインタラクションやアベイランスに関する知識を取得することで、シーン理解や人間とロボットのコラボレーション作業が容易になる。
オープンな相互作用の集合を持つクラス非依存オブジェクトに対する割当分類の問題に対処する。
アクティビティグラフの構築のために,新しい深度情報を用いた定性的空間表現を提案する。
論文 参考訳(メタデータ) (2023-03-30T15:04:04Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。