論文の概要: WT-MVSNet: Window-based Transformers for Multi-view Stereo
- arxiv url: http://arxiv.org/abs/2205.14319v1
- Date: Sat, 28 May 2022 03:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:13:19.080580
- Title: WT-MVSNet: Window-based Transformers for Multi-view Stereo
- Title(参考訳): wt-mvsnet:マルチビューステレオ用ウィンドウベースのトランスフォーマー
- Authors: Jinli Liao, Yikang Ding, Yoli Shavit, Dihe Huang, Shihao Ren, Jia Guo,
Wensen Feng, Kai Zhang
- Abstract要約: 我々は,ウィンドウベースのエピポーラ変換器 (WET) を導入し, エピポーラ制約を用いることで, マッチング冗長性を低減した。
第2のShifted WTは、コストボリューム内でグローバル情報を集約するために使用される。
本稿では,3次元畳み込みを置き換えた新しいCT(Cost Transformer)を提案する。
- 参考スコア(独自算出の注目度): 12.25150988628149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformers were shown to enhance the performance of multi-view
stereo by enabling long-range feature interaction. In this work, we propose
Window-based Transformers (WT) for local feature matching and global feature
aggregation in multi-view stereo. We introduce a Window-based Epipolar
Transformer (WET) which reduces matching redundancy by using epipolar
constraints. Since point-to-line matching is sensitive to erroneous camera pose
and calibration, we match windows near the epipolar lines. A second Shifted WT
is employed for aggregating global information within cost volume. We present a
novel Cost Transformer (CT) to replace 3D convolutions for cost volume
regularization. In order to better constrain the estimated depth maps from
multiple views, we further design a novel geometric consistency loss (Geo Loss)
which punishes unreliable areas where multi-view consistency is not satisfied.
Our WT multi-view stereo method (WT-MVSNet) achieves state-of-the-art
performance across multiple datasets and ranks $1^{st}$ on Tanks and Temples
benchmark.
- Abstract(参考訳): 近年,多視点ステレオの性能向上のために,長距離機能インタラクションを実現するトランスフォーマが提案されている。
本研究では,マルチビューステレオにおける局所的特徴マッチングとグローバル特徴集約のためのウィンドウベーストランスフォーマ(wt)を提案する。
我々は,ウィンドウベースのエピポーラ変換器 (WET) を導入し, エピポーラ制約を用いることで, マッチング冗長性を低減した。
点間マッチングは誤ったカメラのポーズやキャリブレーションに敏感であるため、エピポーラ線近傍の窓にマッチする。
第2のShifted WTは、コストボリューム内でグローバル情報を集約するために使用される。
本稿では,3次元畳み込みを置き換えた新しいCT(Cost Transformer)を提案する。
複数視点からの推定深度マップの制約を改善するため,多視点整合性が満たされない不確実な領域を罰する新たな幾何整合損失(Geo Loss)を設計する。
WTマルチビューステレオ手法(WT-MVSNet)は,複数のデータセットにまたがって最先端の性能を実現し,タンクとテンプルのベンチマークで1^{st}$をランク付けする。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Deep Laparoscopic Stereo Matching with Transformers [46.18206008056612]
トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T12:54:32Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Multiview Stereo with Cascaded Epipolar RAFT [73.7619703879639]
複数の校正画像から高密度点雲などの3次元モデルを再構成する重要な3次元視覚課題であるマルチビューステレオ(MVS)に対処する。
CER-MVSは、RAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく光学フローのための新しいアプローチであるCER-MVSを提案する。CER-MVSは、RAFTに5つの新しい変更を加える: エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、深度マップのマルチ解像度融合。
論文 参考訳(メタデータ) (2022-05-09T18:17:05Z) - Multi-View Stereo with Transformer [31.83069394719813]
本稿では,MVSTR(Multi-View Stereo)のためのネットワークを提案する。
Transformer上に構築されており、グローバルコンテキストと3D一貫性で高密度な特徴を抽出することができる。
実験結果から,提案したMVSTRは,DTUデータセット上で最高の総合性能を達成し,Turps & Templesベンチマークデータセット上での強力な一般化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-12-01T08:06:59Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation) [25.598840284457548]
本稿では,マルチビュー情報を集約するシャドートランスを用いた新しいマルチビュー検出器MVDeTrを提案する。
畳み込みとは異なり、シャドートランスフォーマーは様々な位置やカメラで様々な影のような歪みに対処する。
本報告では,提案方式による最新の精度について報告する。
論文 参考訳(メタデータ) (2021-08-12T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。