論文の概要: CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
- arxiv url: http://arxiv.org/abs/2305.10320v1
- Date: Wed, 17 May 2023 16:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:04:09.245805
- Title: CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo
- Title(参考訳): マルチビューステレオにおけるコストアグリゲーションのためのコストフォーマ:コストトランスフォーマ
- Authors: Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong
Kang, Xuansong Xie
- Abstract要約: Multi-view Stereo(MVS)のコアは、参照ピクセルとソースピクセルのマッチングプロセスである。
コストアグリゲーションはこのプロセスにおいて重要な役割を担い、従来の手法はCNNによる処理に重点を置いていた。
提案手法は,学習に基づくMVS法を改善する汎用的なプラグインである。
- 参考スコア(独自算出の注目度): 30.509029176014156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The core of Multi-view Stereo(MVS) is the matching process among reference
and source pixels. Cost aggregation plays a significant role in this process,
while previous methods focus on handling it via CNNs. This may inherit the
natural limitation of CNNs that fail to discriminate repetitive or incorrect
matches due to limited local receptive fields. To handle the issue, we aim to
involve Transformer into cost aggregation. However, another problem may occur
due to the quadratically growing computational complexity caused by
Transformer, resulting in memory overflow and inference latency. In this paper,
we overcome these limits with an efficient Transformer-based cost aggregation
network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is
proposed to aggregate long-range features on cost volume via self-attention
mechanisms along the depth and spatial dimensions. Furthermore, Residual
Regression Transformer(RRT) is proposed to enhance spatial attention. The
proposed method is a universal plug-in to improve learning-based MVS methods.
- Abstract(参考訳): Multi-view Stereo(MVS)のコアは、参照ピクセルとソースピクセルのマッチングプロセスである。
コストアグリゲーションはこのプロセスで重要な役割を果たすが、以前の手法ではcnnで処理することに集中している。
これはCNNの自然な制限を継承し、限定された局所受容場のために反復的または誤マッチを識別できない。
この問題に対処するため、我々はtransformerをコスト集約に巻き込むことを目指している。
しかし、トランスフォーマーに起因する二次的な計算複雑性が増大し、メモリオーバーフローと推論遅延が発生するため、別の問題が発生する可能性がある。
本稿では,これらの制限を,効率的なTransformerベースのコスト集約ネットワーク,すなわちCostFormerで克服する。
奥行き・空間次元に沿った自己認識機構を用いて, コスト容積の長期的特徴を集約するために, RDACT(Residual Depth-Aware Cost Transformer)を提案する。
さらに,空間的注意力を高めるためにResidual Regression Transformer(RRT)を提案する。
提案手法は学習に基づくMVS法を改善する汎用的なプラグインである。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Learning Inverse Depth Regression for Multi-View Stereo with Correlation
Cost Volume [32.41293572426403]
深層学習は多視点ステレオ(MVS)の深部推論に有効であることが示されている。
しかし、この領域ではスケーラビリティと正確性は依然として未解決の問題である。
ステレオマッチングにおけるグループワイド相関に着想を得て,軽量なコストボリュームを構築するための平均グループワイド相関類似度尺度を提案する。
論文 参考訳(メタデータ) (2019-12-26T01:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。