論文の概要: TransMVSNet: Global Context-aware Multi-view Stereo Network with
Transformers
- arxiv url: http://arxiv.org/abs/2111.14600v1
- Date: Mon, 29 Nov 2021 15:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:37:38.245902
- Title: TransMVSNet: Global Context-aware Multi-view Stereo Network with
Transformers
- Title(参考訳): transmvsnet:トランスフォーマーを用いたグローバルコンテキストアウェアマルチビューステレオネットワーク
- Authors: Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu,
Yuanjiang Wang, Xiao Liu
- Abstract要約: マルチビューステレオ(MVS)における特徴マッチングの探索に基づくTransMVSNetを提案する。
本研究では,FMT(Feature Matching Transformer)を提案する。
提案手法は,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 6.205844084751411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present TransMVSNet, based on our exploration of feature
matching in multi-view stereo (MVS). We analogize MVS back to its nature of a
feature matching task and therefore propose a powerful Feature Matching
Transformer (FMT) to leverage intra- (self-) and inter- (cross-) attention to
aggregate long-range context information within and across images. To
facilitate a better adaptation of the FMT, we leverage an Adaptive Receptive
Field (ARF) module to ensure a smooth transit in scopes of features and bridge
different stages with a feature pathway to pass transformed features and
gradients across different scales. In addition, we apply pair-wise feature
correlation to measure similarity between features, and adopt
ambiguity-reducing focal loss to strengthen the supervision. To the best of our
knowledge, TransMVSNet is the first attempt to leverage Transformer into the
task of MVS. As a result, our method achieves state-of-the-art performance on
DTU dataset, Tanks and Temples benchmark, and BlendedMVS dataset. The code of
our method will be made available at https://github.com/MegviiRobot/TransMVSNet .
- Abstract(参考訳): 本稿では,マルチビューステレオ(MVS)における特徴マッチングの探索に基づき,TransMVSNetを提案する。
我々は、MVSを特徴マッチングタスクの性質に類似させ、画像内および画像間の長距離コンテキスト情報を集約するために、自己内および相互の注意を利用する強力な特徴マッチング変換器(FMT)を提案する。
fmtの適応性を高めるために,適応受容場(adaptive receptive field, arf)モジュールを用いて,特徴範囲の円滑な移動を保証し,異なる段階を橋渡しし,変形した特徴や勾配を異なるスケールで通過させる。
さらに、特徴間の類似度を測定するためにペアワイズ特徴相関を適用し、アンビグニティ低減焦点損失を採用して監督を強化する。
我々の知る限り、TransMVSNetはTransformerをMVSのタスクに活用する最初の試みである。
その結果,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能が得られた。
私たちのメソッドのコードはhttps://github.com/MegviiRobot/TransMVSNetで公開されます。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Multi-View Stereo with Transformer [31.83069394719813]
本稿では,MVSTR(Multi-View Stereo)のためのネットワークを提案する。
Transformer上に構築されており、グローバルコンテキストと3D一貫性で高密度な特徴を抽出することができる。
実験結果から,提案したMVSTRは,DTUデータセット上で最高の総合性能を達成し,Turps & Templesベンチマークデータセット上での強力な一般化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-12-01T08:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。