論文の概要: Multi-View Stereo with Transformer
- arxiv url: http://arxiv.org/abs/2112.00336v1
- Date: Wed, 1 Dec 2021 08:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:34:20.829834
- Title: Multi-View Stereo with Transformer
- Title(参考訳): 変圧器付き多視点ステレオ
- Authors: Jie Zhu, Bo Peng, Wanqing Li, Haifeng Shen, Zhe Zhang, Jianjun Lei
- Abstract要約: 本稿では,MVSTR(Multi-View Stereo)のためのネットワークを提案する。
Transformer上に構築されており、グローバルコンテキストと3D一貫性で高密度な特徴を抽出することができる。
実験結果から,提案したMVSTRは,DTUデータセット上で最高の総合性能を達成し,Turps & Templesベンチマークデータセット上での強力な一般化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 31.83069394719813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a network, referred to as MVSTR, for Multi-View Stereo
(MVS). It is built upon Transformer and is capable of extracting dense features
with global context and 3D consistency, which are crucial to achieving reliable
matching for MVS. Specifically, to tackle the problem of the limited receptive
field of existing CNN-based MVS methods, a global-context Transformer module is
first proposed to explore intra-view global context. In addition, to further
enable dense features to be 3D-consistent, a 3D-geometry Transformer module is
built with a well-designed cross-view attention mechanism to facilitate
inter-view information interaction. Experimental results show that the proposed
MVSTR achieves the best overall performance on the DTU dataset and strong
generalization on the Tanks & Temples benchmark dataset.
- Abstract(参考訳): 本稿では,MVSTR(Multi-View Stereo)のためのネットワークを提案する。
これはtransformer上に構築されており、グローバルコンテキストと3d一貫性を備えた密集した特徴を抽出することができる。
具体的には、既存のCNNベースのMVS手法の限られた受容領域に対処するため、グローバルコンテクストトランスフォーマーモジュールが最初に提案され、視野内グローバルコンテキストを探索する。
さらに、高密度機能を3D一貫性にするために、よく設計されたクロスビューアテンション機構を備えた3D-ジオメトリトランスフォーマーモジュールを構築し、ビュー間の情報相互作用を容易にする。
実験結果から,提案したMVSTRは,DTUデータセット上で最高の総合性能を達成し,Turps & Templesベンチマークデータセット上での強力な一般化を実現していることがわかった。
関連論文リスト
- MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-22T06:42:23Z) - MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - TransMVSNet: Global Context-aware Multi-view Stereo Network with
Transformers [6.205844084751411]
マルチビューステレオ(MVS)における特徴マッチングの探索に基づくTransMVSNetを提案する。
本研究では,FMT(Feature Matching Transformer)を提案する。
提案手法は,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T15:31:49Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。