論文の概要: Adapting Vision Transformer for Efficient Change Detection
- arxiv url: http://arxiv.org/abs/2312.04869v1
- Date: Fri, 8 Dec 2023 07:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:00:54.183135
- Title: Adapting Vision Transformer for Efficient Change Detection
- Title(参考訳): 効率的な変化検出のための適応型視覚変換器
- Authors: Yang Zhao, Yuxiang Zhang, Yanni Dong, Bo Du
- Abstract要約: 本稿では,事前学習した画像エンコーダのパラメータを凍結し,追加のトレーニングパラメータを導入する,効率的なチューニング手法を提案する。
6つの変更検出ベンチマークで非常に低いリソース消費を維持しながら、競争力やよりよい結果を得ました。
- 参考スコア(独自算出の注目度): 36.86012953467539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most change detection models based on vision transformers currently follow a
"pretraining then fine-tuning" strategy. This involves initializing the model
weights using large scale classification datasets, which can be either natural
images or remote sensing images. However, fully tuning such a model requires
significant time and resources. In this paper, we propose an efficient tuning
approach that involves freezing the parameters of the pretrained image encoder
and introducing additional training parameters. Through this approach, we have
achieved competitive or even better results while maintaining extremely low
resource consumption across six change detection benchmarks. For example,
training time on LEVIR-CD, a change detection benchmark, is only half an hour
with 9 GB memory usage, which could be very convenient for most researchers.
Additionally, the decoupled tuning framework can be extended to any pretrained
model for semantic change detection and multi temporal change detection as
well. We hope that our proposed approach will serve as a part of foundational
model to inspire more unified training approaches on change detection in the
future.
- Abstract(参考訳): 視覚トランスフォーマーに基づくほとんどの変更検出モデルは、現在"事前訓練と微調整"戦略に従っている。
これは、大規模な分類データセットを使用してモデル重みを初期化することを含み、これは自然画像かリモートセンシング画像のいずれかである。
しかし、そのようなモデルを完全にチューニングするにはかなりの時間とリソースが必要である。
本稿では,プリトレーニングされた画像エンコーダのパラメータを凍結し,追加のトレーニングパラメータを導入する効率的なチューニング手法を提案する。
このアプローチを通じて、私たちは6つの変更検出ベンチマークで非常に低いリソース消費を維持しながら、競争力やより良い結果を得ました。
例えば、変更検出ベンチマークであるLEVIR-CDのトレーニング時間は、9GBのメモリ使用量で30分に過ぎず、ほとんどの研究者にとって非常に便利である。
さらに、分離されたチューニングフレームワークは、セマンティックチェンジ検出とマルチテンポラリチェンジ検出のための事前訓練されたモデルにも拡張することができる。
今後,我々の提案したアプローチが,より統一されたトレーニングアプローチを刺激する基盤モデルの一部として機能することを願っている。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Single-temporal Supervised Remote Change Detection for Domain Generalization [42.55492600157288]
変化検出はリモートセンシング画像解析に広く応用されている。
既存の方法はデータセットごとに個別にトレーニングモデルを必要とする。
本稿では,変化検出領域の一般化のための視覚遅延事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:38:58Z) - Augmenting Deep Learning Adaptation for Wearable Sensor Data through
Combined Temporal-Frequency Image Encoding [4.458210211781739]
本稿では、時間領域情報と周波数領域情報をシームレスに統合した、新しい修正繰り返しプロットベースの画像表現を提案する。
加速度センサを用いた活動認識データと事前訓練されたResNetモデルを用いて提案手法の評価を行い,既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-03T09:29:27Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。