論文の概要: A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval
- arxiv url: http://arxiv.org/abs/2109.12299v1
- Date: Sat, 25 Sep 2021 07:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:31:20.794203
- Title: A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval
- Title(参考訳): ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク
- Authors: Zan Gao, Yuxiang Shao, Weili Guan, Meng Liu, Zhiyong Cheng, Shengyong
Chen
- Abstract要約: ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
提案したPCNNは, それぞれ93.67%, 96.23%と, 最先端のアプローチより優れている。
- 参考スコア(独自算出の注目度): 36.12906920608775
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, many view-based 3D model retrieval methods have been proposed and
have achieved state-of-the-art performance. Most of these methods focus on
extracting more discriminative view-level features and effectively aggregating
the multi-view images of a 3D model, but the latent relationship among these
multi-view images is not fully explored. Thus, we tackle this problem from the
perspective of exploiting the relationships between patch features to capture
long-range associations among multi-view images. To capture associations among
views, in this work, we propose a novel patch convolutional neural network
(PCNN) for view-based 3D model retrieval. Specifically, we first employ a CNN
to extract patch features of each view image separately. Secondly, a novel
neural network module named PatchConv is designed to exploit intrinsic
relationships between neighboring patches in the feature space to capture
long-range associations among multi-view images. Then, an adaptive weighted
view layer is further embedded into PCNN to automatically assign a weight to
each view according to the similarity between each view feature and the
view-pooling feature. Finally, a discrimination loss function is employed to
extract the discriminative 3D model feature, which consists of softmax loss
values generated by the fusion lassifier and the specific classifier. Extensive
experimental results on two public 3D model retrieval benchmarks, namely, the
ModelNet40, and ModelNet10, demonstrate that our proposed PCNN can outperform
state-of-the-art approaches, with mAP alues of 93.67%, and 96.23%,
respectively.
- Abstract(参考訳): 近年,ビューベースの3dモデル検索手法が多数提案され,最新性能が実現されている。
これらの手法の多くは、より差別的な視点レベルの特徴を抽出し、3次元モデルのマルチビュー画像を効果的に集約することに焦点を当てている。
そこで我々は,マルチビュー画像間の長距離関連を捉えるために,パッチ特徴間の関係を利用する観点からこの問題に取り組む。
本研究では,ビュー間の関連性を把握するために,ビューに基づく3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
具体的には、まずcnnを用いて各ビューイメージのパッチ特徴を別々に抽出する。
第二に、PatchConvと呼ばれる新しいニューラルネットワークモジュールは、特徴空間内の隣り合うパッチ間の固有の関係を利用して、マルチビューイメージ間の長距離関連をキャプチャするように設計されている。
そして、適応重み付きビュー層をさらにPCNNに埋め込み、各ビュー特徴とビュープーリング特徴との類似性に応じて各ビューに重みを自動的に割り当てる。
最後に、フュージョンラッシファイアと特定分類器によって生成されたソフトマックス損失値からなる識別3dモデル特徴を抽出するために識別損失関数を用いる。
ModelNet40とModelNet10の2つの公開3Dモデル検索ベンチマークによる大規模な実験結果から、提案したPCNNは、それぞれ93.67%、96.23%という最先端のアプローチより優れていることが示された。
関連論文リスト
- Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。