論文の概要: Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation
- arxiv url: http://arxiv.org/abs/2407.03842v1
- Date: Thu, 4 Jul 2024 11:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:22:43.820639
- Title: Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation
- Title(参考訳): 視点を超えて: 連立多部表現による任意視点下でのロバストな3次元物体認識
- Authors: Linlong Fan, Ye Huang, Yanqi Ge, Wen Li, Lixin Duan,
- Abstract要約: Part-Aware Network (PANet) は、航空機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。
提案手法は,任意のビュー下での3次元オブジェクト認識処理において,既存のビューベースアグリゲーションベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 22.8031613567025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing view-based methods excel at recognizing 3D objects from predefined viewpoints, but their exploration of recognition under arbitrary views is limited. This is a challenging and realistic setting because each object has different viewpoint positions and quantities, and their poses are not aligned. However, most view-based methods, which aggregate multiple view features to obtain a global feature representation, hard to address 3D object recognition under arbitrary views. Due to the unaligned inputs from arbitrary views, it is challenging to robustly aggregate features, leading to performance degradation. In this paper, we introduce a novel Part-aware Network (PANet), which is a part-based representation, to address these issues. This part-based representation aims to localize and understand different parts of 3D objects, such as airplane wings and tails. It has properties such as viewpoint invariance and rotation robustness, which give it an advantage in addressing the 3D object recognition problem under arbitrary views. Our results on benchmark datasets clearly demonstrate that our proposed method outperforms existing view-based aggregation baselines for the task of 3D object recognition under arbitrary views, even surpassing most fixed viewpoint methods.
- Abstract(参考訳): 既存のビューベース手法は、事前定義された視点から3Dオブジェクトを認識するのに優れているが、任意の視点下での認識の探索は限られている。
これは、各オブジェクトが異なる視点の位置と量を持ち、それらのポーズが一致していないため、難しくて現実的な設定です。
しかし、グローバルな特徴表現を得るために複数のビュー特徴を集約するビューベース手法のほとんどは、任意のビュー下での3Dオブジェクト認識に対処することが困難である。
任意のビューからのアンアラインインプットのため、機能を堅牢に集約することは困難であり、パフォーマンスの低下につながります。
本稿では,これらの問題に対処するためのパートベース表現である新しいパート・アウェア・ネットワーク(PANet)を提案する。
この部分に基づく表現は、飛行機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。
視点不変性や回転ロバスト性などの特性を持ち、任意の視点下での3次元物体認識問題に対処する上で有利である。
提案手法は, 任意の視点下での3次元物体認識のタスクにおいて, 既存のビューベースアグリゲーションベースラインよりも優れており, 固定的な視点法よりも優れていることを示す。
関連論文リスト
- Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Learning Canonical View Representation for 3D Shape Recognition with
Arbitrary Views [20.42021463570052]
任意の視点,すなわち任意の数と視点の位置から3次元形状を認識することに集中する。
これは、ビューベースの3D形状認識のための、挑戦的で現実的な設定である。
この課題に対処するための標準ビュー表現を提案する。
論文 参考訳(メタデータ) (2021-08-16T13:40:18Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - 3D Object Classification on Partial Point Clouds: A Practical
Perspective [91.81377258830703]
点雲は3次元オブジェクト分類において一般的な形状表現である。
本稿では,任意のポーズの下でオブジェクトインスタンスの部分点雲を分類する実践的な設定を提案する。
本稿では,アライメント分類手法による新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-18T04:00:56Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z) - Few-Shot Object Detection and Viewpoint Estimation for Objects in the
Wild [40.132988301147776]
少数ショットオブジェクト検出と少数ショット視点推定の問題に対処する。
両タスクにおいて,データから抽出したクラス表現機能を用いて,ネットワーク予測を導出する利点を実証する。
提案手法は,様々なデータセットに対して,最先端の手法よりも広いマージンで性能を向上する。
論文 参考訳(メタデータ) (2020-07-23T16:17:25Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。