論文の概要: 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding
- arxiv url: http://arxiv.org/abs/2103.16397v2
- Date: Wed, 31 Mar 2021 09:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 11:58:47.901900
- Title: 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding
- Title(参考訳): 3D AffordanceNet: Visual Object Affordance Understandingのベンチマーク
- Authors: Shengheng Deng, Xun Xu, Chaozheng Wu, Ke Chen, Kui Jia
- Abstract要約: 本稿では,23のセマンティックオブジェクトカテゴリから23kの形状のベンチマークである3D AffordanceNetデータセットについて述べる。
3つの最先端のポイントクラウドディープラーニングネットワークがすべてのタスクで評価されます。
- 参考スコア(独自算出の注目度): 33.68455617113953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to understand the ways to interact with objects from visual cues,
a.k.a. visual affordance, is essential to vision-guided robotic research. This
involves categorizing, segmenting and reasoning of visual affordance. Relevant
studies in 2D and 2.5D image domains have been made previously, however, a
truly functional understanding of object affordance requires learning and
prediction in the 3D physical domain, which is still absent in the community.
In this work, we present a 3D AffordanceNet dataset, a benchmark of 23k shapes
from 23 semantic object categories, annotated with 18 visual affordance
categories. Based on this dataset, we provide three benchmarking tasks for
evaluating visual affordance understanding, including full-shape, partial-view
and rotation-invariant affordance estimations. Three state-of-the-art point
cloud deep learning networks are evaluated on all tasks. In addition we also
investigate a semi-supervised learning setup to explore the possibility to
benefit from unlabeled data. Comprehensive results on our contributed dataset
show the promise of visual affordance understanding as a valuable yet
challenging benchmark.
- Abstract(参考訳): 視覚的な手がかり、すなわち、オブジェクトとのインタラクション方法を理解する能力。
視覚能力は視覚誘導型ロボット研究に欠かせない。
これには、視覚能力の分類、セグメンテーション、推論が含まれる。
2Dおよび2.5D画像領域の関連研究はこれまで行われてきたが、物価の真に機能的な理解には3D物理領域での学習と予測が必要である。
本研究では,23のセマンティックオブジェクトカテゴリから23k形状のベンチマークを行い,18の視覚的アプライアンスカテゴリをアノテートした3dアプライアンスネットデータセットを提案する。
このデータセットに基づいて、全形状、部分ビュー、回転不変価格推定を含む視覚的可視性理解を評価するための3つのベンチマークタスクを提供する。
3つの最先端のクラウドディープラーニングネットワークを,すべてのタスクで評価する。
さらに,ラベルのないデータからメリットを享受する半教師付き学習セットアップについても検討した。
コントリビューションデータセットの総合的な結果から、視覚的可視性理解は、価値はあるが挑戦的なベンチマークであることを示す。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - PartAfford: Part-level Affordance Discovery from 3D Objects [113.91774531972855]
パートレベルの空き地探索(PartAfford)の課題について紹介する。
対象物当たりの空きラベルのみを考慮し、(i)3D形状を部品に分解し、(ii)各部品が特定の空きカテゴリに対応する方法を検出する。
本稿では,パーセンテージ・セットの監督と幾何学的原始正規化のみを活用することで,パートレベルの表現を発見する新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-28T02:58:36Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。