論文の概要: DmifNet:3D Shape Reconstruction Based on Dynamic Multi-Branch
Information Fusion
- arxiv url: http://arxiv.org/abs/2011.10776v1
- Date: Sat, 21 Nov 2020 11:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:24:04.146486
- Title: DmifNet:3D Shape Reconstruction Based on Dynamic Multi-Branch
Information Fusion
- Title(参考訳): DmifNet:動的マルチブランチ情報融合に基づく3次元形状再構成
- Authors: Lei Li, Suping Wu
- Abstract要約: シングルビュー画像からの3Dオブジェクトの再構築は、長年の課題である。
複雑なトポロジーで3次元形状を正確に再構築することは, それまでの作業では困難であった。
2次元画像から任意の位相の高忠実度3次元形状を復元できる動的マルチブランチ情報融合ネットワーク(DmifNet)を提案する。
- 参考スコア(独自算出の注目度): 14.585272577456472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object reconstruction from a single-view image is a long-standing
challenging problem. Previous work was difficult to accurately reconstruct 3D
shapes with a complex topology which has rich details at the edges and corners.
Moreover, previous works used synthetic data to train their network, but domain
adaptation problems occurred when tested on real data. In this paper, we
propose a Dynamic Multi-branch Information Fusion Network (DmifNet) which can
recover a high-fidelity 3D shape of arbitrary topology from a 2D image.
Specifically, we design several side branches from the intermediate layers to
make the network produce more diverse representations to improve the
generalization ability of network. In addition, we utilize DoG (Difference of
Gaussians) to extract edge geometry and corners information from input images.
Then, we use a separate side branch network to process the extracted data to
better capture edge geometry and corners feature information. Finally, we
dynamically fuse the information of all branches to gain final predicted
probability. Extensive qualitative and quantitative experiments on a
large-scale publicly available dataset demonstrate the validity and efficiency
of our method. Code and models are publicly available at
https://github.com/leilimaster/DmifNet.
- Abstract(参考訳): シングルビュー画像からの3Dオブジェクトの再構築は、長年の課題である。
複雑なトポロジーで3次元形状を正確に再構築することは, それまでの作業では困難であった。
さらに、以前の研究では、合成データを使ってネットワークをトレーニングしたが、実際のデータでテストするとドメイン適応の問題が発生した。
本稿では,2次元画像から任意の位相の高忠実度3次元形状を復元できる動的マルチブランチ情報融合ネットワーク(dmifnet)を提案する。
具体的には、中間層から複数のサイドブランチを設計し、ネットワークがより多様な表現を生成し、ネットワークの一般化能力を向上させる。
さらに、入力画像からエッジ幾何学とコーナー情報を抽出するためにDoG(ガウスの差分)を用いる。
次に、抽出したデータを別個の側分岐ネットワークで処理し、エッジジオメトリとコーナーの特徴情報をよりよくキャプチャする。
最後に、全ての分岐の情報を動的に融合して最終的な予測確率を得る。
大規模公開データセットの定性的および定量的実験により,本手法の有効性と有効性を示した。
コードとモデルはhttps://github.com/leilimaster/dmifnetで公開されている。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - DECOR-GAN: 3D Shape Detailization by Conditional Refinement [50.8801457082181]
本稿では,3次元形状詳細化のための深層生成ネットワークについて紹介する。
提案手法は, 粗い形状を様々な形状の細かな形状に洗練することができることを示す。
論文 参考訳(メタデータ) (2020-12-16T18:52:10Z) - MeshMVS: Multi-View Stereo Guided Mesh Reconstruction [35.763452474239955]
深層学習に基づく3次元形状生成法は、一般的に、カラー画像から抽出した潜時特徴を利用して、オブジェクトの意味を符号化する。
本稿では,多視点ステレオの中間深度表現の特徴を利用して,幾何情報を明確に取り入れたマルチビューメッシュ生成手法を提案する。
その結果,シェーファー距離が34%減少し,F1スコアが14%増加し,最先端のマルチビュー形状生成法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-10-17T00:51:21Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z) - 6D Object Pose Regression via Supervised Learning on Point Clouds [42.21181542960924]
本稿では,点雲で表される深度情報から,既知の3次元物体の6自由度ポーズを推定する作業について述べる。
我々は、深度ネットワークと幾何学に基づくポーズ改善の両方への入力として、点雲で表される深度情報を用いる。
我々の単純で効果的なアプローチは、YCB-ビデオデータセットにおける最先端の手法よりも明らかに優れています。
論文 参考訳(メタデータ) (2020-01-24T10:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。