論文の概要: GARNet: Global-Aware Multi-View 3D Reconstruction Network and the
Cost-Performance Tradeoff
- arxiv url: http://arxiv.org/abs/2211.02299v1
- Date: Fri, 4 Nov 2022 07:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:55:28.428272
- Title: GARNet: Global-Aware Multi-View 3D Reconstruction Network and the
Cost-Performance Tradeoff
- Title(参考訳): GARNet:グローバルなマルチビュー3D再構成ネットワークとコストパフォーマンストレードオフ
- Authors: Zhenwei Zhu, Liying Yang, Xuxin Lin, Chaohao Jiang, Ning Li, Lin Yang,
Yanyan Liang
- Abstract要約: 本稿では,各ブランチとグローバル間の相関関係を構築し,重み付け推論の包括的基盤を提供する,グローバルアウェアアテンションベースの融合手法を提案する。
ネットワークの能力を高めるために,ネットワーク全体の形状を監督する新たな損失関数を導入する。
ShapeNetの実験により,本手法が既存のSOTA法より優れていることを確認した。
- 参考スコア(独自算出の注目度): 10.8606881536924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning technology has made great progress in multi-view 3D
reconstruction tasks. At present, most mainstream solutions establish the
mapping between views and shape of an object by assembling the networks of 2D
encoder and 3D decoder as the basic structure while they adopt different
approaches to obtain aggregation of features from several views. Among them,
the methods using attention-based fusion perform better and more stable than
the others, however, they still have an obvious shortcoming -- the strong
independence of each view during predicting the weights for merging leads to a
lack of adaption of the global state. In this paper, we propose a global-aware
attention-based fusion approach that builds the correlation between each branch
and the global to provide a comprehensive foundation for weights inference. In
order to enhance the ability of the network, we introduce a novel loss function
to supervise the shape overall and propose a dynamic two-stage training
strategy that can effectively adapt to all reconstructors with attention-based
fusion. Experiments on ShapeNet verify that our method outperforms existing
SOTA methods while the amount of parameters is far less than the same type of
algorithm, Pix2Vox++. Furthermore, we propose a view-reduction method based on
maximizing diversity and discuss the cost-performance tradeoff of our model to
achieve a better performance when facing heavy input amount and limited
computational cost.
- Abstract(参考訳): 深層学習技術は多視点3D再構成タスクにおいて大きな進歩を遂げた。
現在、ほとんどの主流のソリューションは、2Dエンコーダと3Dデコーダのネットワークを基本構造として組み込むことで、オブジェクトのビューと形状のマッピングを確立している。
それらのうち、注意に基づく融合の手法は、他の方法よりも良く、より安定しているが、それでも明らかな欠点がある。統合の重み付けを予測する際の各視点の強い独立性は、グローバルな状態への適応の欠如につながる。
本稿では,各分枝とグローバルの相関関係を構築し,重み付け推論の包括的基礎を提供するグローバルアウェア・アテンションベース・フュージョン手法を提案する。
ネットワークの能力を高めるために, 形状全体を監視する新しい損失関数を導入し, 注意に基づく融合により, 全ての再構築者に効果的に適応できる動的2段階訓練戦略を提案する。
ShapeNetの実験では、パラメータの量は同じタイプのアルゴリズムであるPix2Vox++よりもはるかに少ないが、既存のSOTAメソッドよりも優れていることが確認された。
さらに,多様性を最大化することに基づくビューリダクション手法を提案し,大入力量と計算コストの制限に対して,より優れた性能を実現するためのモデルのコストパフォーマンストレードオフについて考察する。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and
Multi-view Geometric Consistency Perception [60.23832277827669]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元する傾向がある。
水平深度と比表現に適した教師なし適応手法を提案する。
また,決定レベルのレイアウト解析のための最適化手法と,特徴レベルのマルチビューアグリゲーションのための1次元コストボリューム構築手法も導入する。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from
Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints
Voting for Robust 6D Object Pose Estimation [34.37209136057662]
本稿では,ポーズ推定を改善するために,モーダリティ特性を集約できる新しいDeep Fusion Transformerを提案する。
また, 高精度な3次元キーポイントローカライゼーションのための非定位的グローバル最適化戦略を利用する, 新しい重み付きベクトルワイズ投票アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-10T08:52:08Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z) - Multi-agent Reinforcement Learning with Graph Q-Networks for Antenna
Tuning [60.94661435297309]
モバイルネットワークの規模は、手作業による介入や手作業による戦略を使ってアンテナパラメータの最適化を困難にしている。
本研究では,モバイルネットワーク構成をグローバルに最適化するマルチエージェント強化学習アルゴリズムを提案する。
シミュレーション環境におけるアンテナ傾き調整問題とジョイント傾き・電力制御問題に対するアルゴリズムの性能を実証的に示す。
論文 参考訳(メタデータ) (2023-01-20T17:06:34Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。