Fugu-MT 論文翻訳(概要): Learning Canonical View Representation for 3D Shape Recognition with Arbitrary Views

論文の概要: Learning Canonical View Representation for 3D Shape Recognition with Arbitrary Views

arxiv url: http://arxiv.org/abs/2108.07084v1
Date: Mon, 16 Aug 2021 13:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-17 15:27:36.156404
Title: Learning Canonical View Representation for 3D Shape Recognition with Arbitrary Views
Title（参考訳）: 任意視点を用いた3次元形状認識のための学習標準ビュー表現
Authors: Xin Wei, Yifei Gong, Fudong Wang, Xing Sun
Abstract要約: 任意の視点,すなわち任意の数と視点の位置から3次元形状を認識することに集中する。これは、ビューベースの3D形状認識のための、挑戦的で現実的な設定である。この課題に対処するための標準ビュー表現を提案する。
参考スコア（独自算出の注目度）: 14.407774569682273
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we focus on recognizing 3D shapes from arbitrary views, i.e., arbitrary numbers and positions of viewpoints. It is a challenging and realistic setting for view-based 3D shape recognition. We propose a canonical view representation to tackle this challenge. We first transform the original features of arbitrary views to a fixed number of view features, dubbed canonical view representation, by aligning the arbitrary view features to a set of learnable reference view features using optimal transport. In this way, each 3D shape with arbitrary views is represented by a fixed number of canonical view features, which are further aggregated to generate a rich and robust 3D shape representation for shape recognition. We also propose a canonical view feature separation constraint to enforce that the view features in canonical view representation can be embedded into scattered points in a Euclidean space. Experiments on the ModelNet40, ScanObjectNN, and RGBD datasets show that our method achieves competitive results under the fixed viewpoint settings, and significantly outperforms the applicable methods under the arbitrary view setting.
Abstract（参考訳）: 本稿では,任意の視点,すなわち任意の数と視点の位置から3次元形状を認識することに焦点を当てる。これは、ビューベースの3D形状認識のための挑戦的で現実的な設定である。この課題に対処するための標準ビュー表現を提案する。まず,任意のビューの本来の特徴を,任意のビュー特徴を最適なトランスポートを用いて学習可能な参照ビュー特徴の集合に合わせることにより,標準ビュー表現と呼ばれる一定数のビュー特徴に変換する。このように、任意のビューを持つ各3次元形状は、一定の数の標準ビュー特徴によって表現され、さらに集約されて、形状認識のためのリッチで堅牢な3次元形状表現を生成する。また,正準ビュー表現のビュー特徴をユークリッド空間の散乱点に埋め込むことができるよう,正準ビュー特徴分離制約を提案する。 ModelNet40, ScanObjectNN, RGBDデータセットを用いた実験により, 固定された視点設定下での競合結果が得られ, 任意の視点設定下では適用可能な手法よりも大幅に優れていた。

関連論文リスト

AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction [69.65671384868344]
拡散モデルに基づく新しい次世代予測パラダイムAR-1-to-3を提案する。提案手法は,生成したビューと入力ビューとの整合性を大幅に改善し,高忠実度3Dアセットを生成する。
論文参考訳（メタデータ） (2025-03-17T08:39:10Z)
Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation [22.8031613567025]
Part-Aware Network (PANet) は、航空機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。提案手法は,任意のビュー下での3次元オブジェクト認識処理において,既存のビューベースアグリゲーションベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-07-04T11:16:47Z)
MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。 MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文参考訳（メタデータ） (2022-12-27T12:09:16Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文参考訳（メタデータ） (2021-08-10T12:19:34Z)
CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文参考訳（メタデータ） (2021-04-08T15:50:47Z)
Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。 SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。 SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文参考訳（メタデータ） (2020-11-14T07:24:43Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)
Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文参考訳（メタデータ） (2020-07-20T17:38:31Z)
AUTO3D: Novel view synthesis through unsupervisely learned variational viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文参考訳（メタデータ） (2020-07-13T18:51:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。