論文の概要: ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning
- arxiv url: http://arxiv.org/abs/2409.08582v1
- Date: Fri, 13 Sep 2024 07:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:28:47.638442
- Title: ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning
- Title(参考訳): ChangeChat:マルチモーダルインストラクションチューニングによるリモートセンシング変更分析のためのインタラクティブモデル
- Authors: Pei Deng, Wenqian Zhou, Hanlin Wu,
- Abstract要約: 本稿では,RS変化解析に特化して設計された初めてのバイテンポラル視覚言語モデルであるChangeChatを紹介する。
ChangeChatはマルチモーダルな命令チューニングを使用して、変更キャプション、カテゴリ固有の定量化、変更ローカライゼーションといった複雑なクエリを処理できる。
実験によると、ChangeChatはRS変更分析のための包括的なインタラクティブなソリューションを提供し、特定のタスクにおける最先端(SOTA)メソッドに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.846600473226587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing (RS) change analysis is vital for monitoring Earth's dynamic processes by detecting alterations in images over time. Traditional change detection excels at identifying pixel-level changes but lacks the ability to contextualize these alterations. While recent advancements in change captioning offer natural language descriptions of changes, they do not support interactive, user-specific queries. To address these limitations, we introduce ChangeChat, the first bitemporal vision-language model (VLM) designed specifically for RS change analysis. ChangeChat utilizes multimodal instruction tuning, allowing it to handle complex queries such as change captioning, category-specific quantification, and change localization. To enhance the model's performance, we developed the ChangeChat-87k dataset, which was generated using a combination of rule-based methods and GPT-assisted techniques. Experiments show that ChangeChat offers a comprehensive, interactive solution for RS change analysis, achieving performance comparable to or even better than state-of-the-art (SOTA) methods on specific tasks, and significantly surpassing the latest general-domain model, GPT-4. Code and pre-trained weights are available at https://github.com/hanlinwu/ChangeChat.
- Abstract(参考訳): リモートセンシング(RS)の変化分析は、時間の経過とともに画像の変化を検出することによって地球のダイナミックなプロセスをモニタリングするために不可欠である。
従来の変更検出は、ピクセルレベルの変更を特定するのに優れるが、これらの変更を文脈化する能力に欠ける。
変更キャプションの最近の進歩は、変更の自然言語記述を提供するが、インタラクティブでユーザ固有のクエリをサポートしない。
これらの制約に対処するために、RS変化解析に特化したバイテンポラル視覚言語モデル(VLM)であるChangeChatを導入する。
ChangeChatはマルチモーダルな命令チューニングを使用して、変更キャプション、カテゴリ固有の定量化、変更ローカライゼーションといった複雑なクエリを処理できる。
モデルの性能を向上させるため,ルールベース手法とGPT支援手法を組み合わせたChangeChat-87kデータセットを開発した。
実験によると、ChangeChatはRS変更分析のための総合的でインタラクティブなソリューションを提供し、特定のタスクにおける最新技術(SOTA)メソッドに匹敵するパフォーマンスを達成し、最新の汎用ドメインモデルであるGPT-4を大幅に上回っている。
コードとトレーニング済みのウェイトはhttps://github.com/hanlinwu/ChangeChat.comで公開されている。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。
本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T17:47:14Z) - Change-Agent: Towards Interactive Comprehensive Remote Sensing Change Interpretation and Analysis [28.3763053922823]
現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。
本稿では,ユーザ指示に従って包括的な変更解釈を実現するインタラクティブなChange-Agentを提案する。
Change-Agentは、マルチレベル変化解釈(MCI)モデルを目として、大きな言語モデル(LLM)を脳として統合する。
論文 参考訳(メタデータ) (2024-03-28T17:55:42Z) - Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models [2.2933109484655794]
大規模言語モデル (LLM) は, 様々な領域で特徴抽出機能に利用されてきた。
本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。
論文 参考訳(メタデータ) (2024-03-23T22:07:32Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Changer: Feature Interaction is What You Need for Change Detection [6.385385687682811]
変化検出は、長期の地球観測ミッションにとって重要なツールである。
本稿では,特徴抽出器に代替的なインタラクション層を含む,新しい汎用的な変更検出アーキテクチャであるMetaChangerを提案する。
異なるスケール変化検出データセット上で,Changerシリーズモデルが競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2022-09-17T09:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。