論文の概要: CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer
- arxiv url: http://arxiv.org/abs/2312.08594v1
- Date: Thu, 14 Dec 2023 01:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:22:28.900560
- Title: CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer
- Title(参考訳): CT-MVSNet:クロススケールトランスを用いた効率的なマルチビューステレオ
- Authors: Sicheng Wang, Hao Jiang, Lei Xiang
- Abstract要約: クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
- 参考スコア(独自算出の注目度): 8.962657021133925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep multi-view stereo (MVS) methods have widely incorporated
transformers into cascade network for high-resolution depth estimation,
achieving impressive results. However, existing transformer-based methods are
constrained by their computational costs, preventing their extension to finer
stages. In this paper, we propose a novel cross-scale transformer (CT) that
processes feature representations at different stages without additional
computation. Specifically, we introduce an adaptive matching-aware transformer
(AMT) that employs different interactive attention combinations at multiple
scales. This combined strategy enables our network to capture intra-image
context information and enhance inter-image feature relationships. Besides, we
present a dual-feature guided aggregation (DFGA) that embeds the coarse global
semantic information into the finer cost volume construction to further
strengthen global and local feature awareness. Meanwhile, we design a feature
metric loss (FM Loss) that evaluates the feature bias before and after
transformation to reduce the impact of feature mismatch on depth estimation.
Extensive experiments on DTU dataset and Tanks and Temples (T\&T) benchmark
demonstrate that our method achieves state-of-the-art results. Code is
available at https://github.com/wscstrive/CT-MVSNet.
- Abstract(参考訳): 近年の深層多視点ステレオ(MVS)法は,高分解能深度推定のためにトランスフォーマーをカスケードネットワークに広く組み込んで,優れた結果を得た。
しかし、既存の変換器ベースの手法は計算コストに制約されるため、より細かい段階にまで拡張できない。
本稿では,異なる段階における特徴表現を付加計算なしで処理する新しいクロススケールトランス (CT) を提案する。
具体的には,複数のスケールで異なる対話型アテンションの組み合わせを用いた適応マッチングアウェアトランスフォーマ(amt)を提案する。
この組み合わせ戦略により,ネットワークは画像内コンテキスト情報をキャプチャし,画像間特徴関係を強化することができる。
さらに,粗大なグローバル意味情報を細かなコストボリューム構築に組み込むことにより,グローバルかつ局所的な特徴認識をさらに強化する,デュアルフィーチャーガイドアグリゲーション(dfga)を提案する。
一方,特徴量的損失(fm損失)は,特徴的ミスマッチが深さ推定に与える影響を減少させるために,変換前後の特徴バイアスを評価する。
DTUデータセットとタンク・アンド・テンプル (T\&T) ベンチマークの大規模な実験により,本手法が最先端の成果を得られることが示された。
コードはhttps://github.com/wscstrive/CT-MVSNetで入手できる。
関連論文リスト
- Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。
さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。
実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-04T16:09:52Z) - FuseFormer: A Transformer for Visual and Thermal Image Fusion [3.6064695344878093]
本稿では,従来の評価指標を損失関数として用いた場合の限界を緩和する画像融合問題に対する新しい手法を提案する。
提案手法は,局所的およびグローバルなコンテキスト情報に順応的に対処するトランスフォーマーベースのマルチスケール融合戦略を統合する。
提案手法は,新たな損失関数の定義とともに,他の競合融合アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-01T19:40:39Z) - Deep Laparoscopic Stereo Matching with Transformers [46.18206008056612]
トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T12:54:32Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - TransMVSNet: Global Context-aware Multi-view Stereo Network with
Transformers [6.205844084751411]
マルチビューステレオ(MVS)における特徴マッチングの探索に基づくTransMVSNetを提案する。
本研究では,FMT(Feature Matching Transformer)を提案する。
提案手法は,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T15:31:49Z) - SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image
Prediction [33.29925021875922]
階層内セマンティック・プロモーション(ISP)、クロスレベルデカップリング・インタラクション(CDI)、アテンション・リファインメント・ファンクション(ARF)からなる画像予測のための新しいセマンティック・アウェア・デカップリング・トランスフォーマー・ピラミッド(SDTP)を提案する。
ISPは、異なる受容空間における意味的多様性を探求する。CDIは、疎結合空間における異なるレベル間のグローバルな関心と相互作用を構築し、重計算の問題を解決する。
提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の精度を著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-18T16:29:14Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。