論文の概要: Refine3DNet: Scaling Precision in 3D Object Reconstruction from Multi-View RGB Images using Attention
- arxiv url: http://arxiv.org/abs/2412.00731v1
- Date: Sun, 01 Dec 2024 08:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:43.866895
- Title: Refine3DNet: Scaling Precision in 3D Object Reconstruction from Multi-View RGB Images using Attention
- Title(参考訳): Refine3DNet:注意を用いた多視点RGB画像からの3次元オブジェクト再構成におけるスケーリング精度
- Authors: Ajith Balakrishnan, Sreeja S, Linu Shine,
- Abstract要約: 本稿では,自己認識機構を備えた視覚的自動エンコーダと3Dリファインダネットワークを備えたハイブリッド戦略を提案する。
提案手法はJTSOと組み合わせて, 単一・多視点3次元再構成における最先端技術よりも優れる。
- 参考スコア(独自算出の注目度): 2.037112541541094
- License:
- Abstract: Generating 3D models from multi-view 2D RGB images has gained significant attention, extending the capabilities of technologies like Virtual Reality, Robotic Vision, and human-machine interaction. In this paper, we introduce a hybrid strategy combining CNNs and transformers, featuring a visual auto-encoder with self-attention mechanisms and a 3D refiner network, trained using a novel Joint Train Separate Optimization (JTSO) algorithm. Encoded features from unordered inputs are transformed into an enhanced feature map by the self-attention layer, decoded into an initial 3D volume, and further refined. Our network generates 3D voxels from single or multiple 2D images from arbitrary viewpoints. Performance evaluations using the ShapeNet datasets show that our approach, combined with JTSO, outperforms state-of-the-art techniques in single and multi-view 3D reconstruction, achieving the highest mean intersection over union (IOU) scores, surpassing other models by 4.2% in single-view reconstruction.
- Abstract(参考訳): マルチビュー2D RGB画像から3Dモデルを生成することは、仮想現実、ロボットビジョン、人間と機械の相互作用といった技術の能力を拡張し、大きな注目を集めている。
本稿では,CNNとトランスフォーマーを組み合わせたハイブリッド戦略を提案し,視覚的自動エンコーダと,新しいJTSOアルゴリズムを用いて訓練した3次元精細ネットワークを提案する。
非順序入力からの符号化された特徴は、自己アテンション層によって拡張された特徴マップに変換され、初期3Dボリュームにデコードされ、さらに洗練される。
ネットワークは、任意の視点から、単一または複数の2次元画像から3Dボクセルを生成する。
ShapeNetデータセットを用いた性能評価の結果、JTSOと組み合わせた手法は、単一および多視点の3次元再構成において最先端技術より優れており、単一視点再構成において、他のモデルよりも4.2%も高い平均交叉率(IOU)を達成していることがわかった。
関連論文リスト
- LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - 3D Dense Face Alignment with Fused Features by Aggregating CNNs and GCNs [28.7443367565456]
これは、標準畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)をシームレスに結合することで達成される。
CNNとGCNの異なる層やステージにまたがる特徴を反復的に融合させることで,我々のアプローチは高密度な顔アライメントと3次元顔再構成を同時に実現することができる。
いくつかの挑戦的なデータセットの実験により、我々の手法は2次元および3次元の顔アライメントタスクにおける最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-09T11:07:10Z) - 3D-MOV: Audio-Visual LSTM Autoencoder for 3D Reconstruction of Multiple
Objects from Video [29.26483070179999]
音声視覚入力を用いた3次元再構成のためのマルチモーダル・シングルフレーム・マルチフレームニューラルネットワークを提案する。
訓練されたLSTMオートエンコーダ3D-MOVは、様々な表面タイプやビューを考慮に入れた複数の入力を受信する。
論文 参考訳(メタデータ) (2021-10-05T23:23:19Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。