論文の概要: SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image
Prediction
- arxiv url: http://arxiv.org/abs/2109.08963v1
- Date: Sat, 18 Sep 2021 16:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 10:26:09.487866
- Title: SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image
Prediction
- Title(参考訳): sdtp:密画像予測のための意味認識分離トランスピラミッド
- Authors: Zekun Li, Yufan Liu, Bing Li, Weiming Hu, Kebin Wu, Pei Wang
- Abstract要約: 階層内セマンティック・プロモーション(ISP)、クロスレベルデカップリング・インタラクション(CDI)、アテンション・リファインメント・ファンクション(ARF)からなる画像予測のための新しいセマンティック・アウェア・デカップリング・トランスフォーマー・ピラミッド(SDTP)を提案する。
ISPは、異なる受容空間における意味的多様性を探求する。CDIは、疎結合空間における異なるレベル間のグローバルな関心と相互作用を構築し、重計算の問題を解決する。
提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の精度を著しく上回る結果が得られた。
- 参考スコア(独自算出の注目度): 33.29925021875922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although transformer has achieved great progress on computer vision tasks,
the scale variation in dense image prediction is still the key challenge. Few
effective multi-scale techniques are applied in transformer and there are two
main limitations in the current methods. On one hand, self-attention module in
vanilla transformer fails to sufficiently exploit the diversity of semantic
information because of its rigid mechanism. On the other hand, it is hard to
build attention and interaction among different levels due to the heavy
computational burden. To alleviate this problem, we first revisit multi-scale
problem in dense prediction, verifying the significance of diverse semantic
representation and multi-scale interaction, and exploring the adaptation of
transformer to pyramidal structure. Inspired by these findings, we propose a
novel Semantic-aware Decoupled Transformer Pyramid (SDTP) for dense image
prediction, consisting of Intra-level Semantic Promotion (ISP), Cross-level
Decoupled Interaction (CDI) and Attention Refinement Function (ARF). ISP
explores the semantic diversity in different receptive space. CDI builds the
global attention and interaction among different levels in decoupled space
which also solves the problem of heavy computation. Besides, ARF is further
added to refine the attention in transformer. Experimental results demonstrate
the validity and generality of the proposed method, which outperforms the
state-of-the-art by a significant margin in dense image prediction tasks.
Furthermore, the proposed components are all plug-and-play, which can be
embedded in other methods.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンタスクで大きな進歩を遂げているが、高密度画像予測のスケール変動は依然として重要な課題である。
変圧器に効果的なマルチスケール技術を適用することは少なく、現在の方法には2つの大きな制限がある。
一方、バニラ変圧器の自己保持モジュールは、その剛性機構のため、意味情報の多様性を十分に活用できない。
一方,計算負荷が大きいため,異なるレベルの注意とインタラクションを構築することは困難である。
この問題を緩和するために、我々はまず密集予測におけるマルチスケール問題を再検討し、多様な意味表現と多スケール相互作用の重要性を検証するとともに、トランスフォーマーのピラミッド構造への適応を探る。
これらの知見に触発されて,isp (intra-level semantic promotion) とcdi (cross-level decoupled interaction) とarf ( attentionfine function) からなる,高密度画像予測のための新しい意味認識非結合化トランスフォーマーピラミッド (sdtp) を提案する。
ISPは、異なる受容空間における意味的多様性を探究する。
CDIは、疎結合空間における異なるレベル間のグローバルな注意と相互作用を構築し、重計算の問題を解決する。
さらに、ARFは変圧器の注意を洗練するために追加される。
提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の手法よりも優れていた。
さらに、提案されたコンポーネントはすべてプラグ・アンド・プレイであり、他のメソッドに組み込むことができる。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Transformer-based Multimodal Change Detection with Multitask Consistency Constraints [10.906283981247796]
現在の変化検出方法は、意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に対処する。
そこで我々は,クロスアテンションにより,多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。
提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。
論文 参考訳(メタデータ) (2023-10-13T17:38:45Z) - Inverted Pyramid Multi-task Transformer for Dense Scene Understanding [11.608682595506354]
InvPT(Invert-to-end Inverted Pyramid Multi-task Transformer)を提案する。
InvPTは効率の良いUP-Transformerブロックを示し、徐々に高解像度でマルチタスク特徴の相互作用を学習する。
提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
論文 参考訳(メタデータ) (2022-03-15T15:29:08Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation [18.755217252996754]
我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
論文 参考訳(メタデータ) (2021-06-12T08:37:17Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。