論文の概要: ChangeMinds: Multi-task Framework for Detecting and Describing Changes in Remote Sensing
- arxiv url: http://arxiv.org/abs/2410.10047v1
- Date: Tue, 15 Oct 2024 11:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:23:50.263905
- Title: ChangeMinds: Multi-task Framework for Detecting and Describing Changes in Remote Sensing
- Title(参考訳): ChangeMinds: リモートセンシングの変更の検出と記述のためのマルチタスクフレームワーク
- Authors: Yuduo Wang, Weikang Yu, Michael Kopp, Pedram Ghamisi,
- Abstract要約: 単一のエンドツーエンドモデル内でCDとCCプロセスを同時に最適化する新しいフレームワークであるChangeMindsを紹介します。
本稿では,抽出した両時間深度特徴から複雑な時間的ダイナミクスを効果的に捉えるために,変更対応長期記憶モジュール(ChangeLSTM)を提案する。
本稿では,画像特徴とテキスト特徴の相互作用を強化するクロスアテンション機構を備えたマルチタスク予測器を導入し,両タスクの効率的な同時学習と処理を促進する。
- 参考スコア(独自算出の注目度): 11.460012086363399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Remote Sensing (RS) for Change Detection (CD) and Change Captioning (CC) have seen substantial success by adopting deep learning techniques. Despite these advances, existing methods often handle CD and CC tasks independently, leading to inefficiencies from the absence of synergistic processing. In this paper, we present ChangeMinds, a novel unified multi-task framework that concurrently optimizes CD and CC processes within a single, end-to-end model. We propose the change-aware long short-term memory module (ChangeLSTM) to effectively capture complex spatiotemporal dynamics from extracted bi-temporal deep features, enabling the generation of universal change-aware representations that effectively serve both CC and CD tasks. Furthermore, we introduce a multi-task predictor with a cross-attention mechanism that enhances the interaction between image and text features, promoting efficient simultaneous learning and processing for both tasks. Extensive evaluations on the LEVIR-MCI dataset, alongside other standard benchmarks, show that ChangeMinds surpasses existing methods in multi-task learning settings and markedly improves performance in individual CD and CC tasks. Codes and pre-trained models will be available online.
- Abstract(参考訳): 近年のリモートセンシング(RS)による変化検出(CD)と変化キャプション(CC)の進歩は,ディープラーニング技術の導入によって大きな成功を収めている。
これらの進歩にもかかわらず、既存の手法はCDとCCのタスクを独立に扱うことが多く、相乗的処理が欠如していることから効率が低下する。
本稿では,CDとCCのプロセスを1つのエンドツーエンドモデルで同時に最適化する,新しい統合マルチタスクフレームワークであるChangeMindsを提案する。
本稿では,両時間深部特徴量から複雑な時空間ダイナミクスを効果的に捉え,CCタスクとCDタスクの両方に効果的に機能する汎用的な変化認識表現の生成を可能にする,変化認識長短期記憶モジュール(ChangeLSTM)を提案する。
さらに,画像特徴とテキスト特徴の相互作用を強化するクロスアテンション機構を備えたマルチタスク予測器を導入し,両タスクの効率的な同時学習と処理を促進する。
LEVIR-MCIデータセットの大規模な評価は、他の標準ベンチマークとともに、ChangeMindsがマルチタスクの学習設定で既存のメソッドを超え、個々のCDやCCタスクのパフォーマンスが著しく向上していることを示している。
コードと事前訓練されたモデルはオンラインで利用できる。
関連論文リスト
- CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset [26.056704438848985]
本稿では,新しいマルチモーダル大規模モデルフレームワークであるCCExpertを提案する。
まず,両時間画像間のマルチスケール差をキャプチャする差分認識統合モジュールを設計する。
第2に、20万の画像対と120万のキャプションを含む、CC-Foundationと呼ばれる高品質で多様なデータセットを構築しました。
最後に,3段階のプログレッシブ・トレーニング・プロセスを用いて,事前学習したMLLMと差認識統合モジュールの深い統合を保証した。
論文 参考訳(メタデータ) (2024-11-18T08:10:49Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。
我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。
当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文 参考訳(メタデータ) (2021-04-20T17:16:34Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。