論文の概要: Efficient Transformer based Method for Remote Sensing Image Change
Detection
- arxiv url: http://arxiv.org/abs/2103.00208v1
- Date: Sat, 27 Feb 2021 13:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:43:37.309724
- Title: Efficient Transformer based Method for Remote Sensing Image Change
Detection
- Title(参考訳): 能率変換器を用いたリモートセンシング画像変化検出法
- Authors: Hao Chen, Zipeng Qi and Zhenwei Shi
- Abstract要約: シーン内のオブジェクトの複雑さのため、高解像度なリモートセンシングcdは依然として困難である。
空間時間領域内のコンテキストを効率的に効果的にモデル化するためのバイテンポラル画像変換器(BiT)を提案する。
BiTベースのモデルは、計算コストとモデルパラメータのわずか3倍のコストで純粋に畳み込みベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 17.553240434628087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern change detection (CD) has achieved remarkable success by the powerful
discriminative ability of deep convolutions. However, high-resolution remote
sensing CD remains challenging due to the complexity of objects in the scene.
The objects with the same semantic concept show distinct spectral behaviors at
different times and different spatial locations. Modeling interactions between
global semantic concepts is critical for change recognition. Most recent change
detection pipelines using pure convolutions are still struggling to relate
long-range concepts in space-time. Non-local self-attention approaches show
promising performance via modeling dense relations among pixels, yet are
computationally inefficient. In this paper, we propose a bitemporal image
transformer (BiT) to efficiently and effectively model contexts within the
spatial-temporal domain. Our intuition is that the high-level concepts of the
change of interest can be represented by a few visual words, i.e., semantic
tokens. To achieve this, we express the bitemporal image into a few tokens, and
use a transformer encoder to model contexts in the compact token-based
space-time. The learned context-rich tokens are then feedback to the
pixel-space for refining the original features via a transformer decoder. We
incorporate BiT in a deep feature differencing-based CD framework. Extensive
experiments on three public CD datasets demonstrate the effectiveness and
efficiency of the proposed method. Notably, our BiT-based model significantly
outperforms the purely convolutional baseline using only 3 times lower
computational costs and model parameters. Based on a naive backbone (ResNet18)
without sophisticated structures (e.g., FPN, UNet), our model surpasses several
state-of-the-art CD methods, including better than two recent attention-based
methods in terms of efficiency and accuracy. Our code will be made public.
- Abstract(参考訳): 近代的変化検出(CD)は、深い畳み込みの強力な識別能力によって大きな成功を収めた。
しかし、シーン内の物体の複雑さのため、高解像度のリモートセンシングCDは依然として困難である。
同じ意味概念を持つオブジェクトは、異なる時間と異なる空間位置における異なるスペクトル挙動を示す。
グローバルセマンティクスの概念間の相互作用のモデリングは、変化認識に不可欠である。
近年、純粋な畳み込みを用いた変更検出パイプラインは、時空における長距離の概念の関連に苦慮している。
非局所的な自己アテンションアプローチは、画素間の密接な関係をモデル化することで有望な性能を示すが、計算的に非効率である。
本稿では,空間時間領域内のコンテキストを効率的に効果的にモデル化するバイテンポラル画像変換器(BiT)を提案する。
我々の直観は、関心の変化の高レベルな概念はいくつかの視覚的単語、すなわち意味的トークンで表現できるということである。
これを実現するために、ビテンポラル画像をいくつかのトークンに表現し、コンパクトなトークンベースの時空におけるコンテキストのモデル化にトランスフォーマーエンコーダを使用する。
学習されたコンテキストリッチトークンは、変換器デコーダを介して元の機能を精錬するためにピクセル空間にフィードバックされる。
BiTを深い機能差分ベースのCDフレームワークに組み込んでいます。
3つの公開CDデータセットに対する大規模な実験により,提案手法の有効性と有効性を示した。
特に、ビットベースモデルは計算コストとモデルパラメータの3倍のコストで、純粋に畳み込みベースラインを著しく上回っています。
複雑な構造(例えばFPN, UNet)を持たない単純なバックボーン(ResNet18)に基づいて、我々のモデルは、効率と精度の点で最近の2つの注意に基づく方法を含む、最先端のCDメソッドを超越している。
私たちのコードは公開されます。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Efficient Transformer-based 3D Object Detection with Dynamic Token
Halting [19.88560740238657]
本稿では,異なる層でトークンを動的に停止させることにより,トランスフォーマーを用いた3次元物体検出器の高速化に有効な手法を提案する。
トークンの停止は微分不可能な操作であるが,本手法はエンドツーエンドの学習を可能にする。
我々のフレームワークでは、停止トークンを再利用して、簡単なトークンリサイクル機構を通じてモデルの予測を知らせることができます。
論文 参考訳(メタデータ) (2023-03-09T07:26:49Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。