論文の概要: Change-Agent: Towards Interactive Comprehensive Change Interpretation and Analysis from Change Detection and Change Captioning
- arxiv url: http://arxiv.org/abs/2403.19646v1
- Date: Thu, 28 Mar 2024 17:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:04:56.098577
- Title: Change-Agent: Towards Interactive Comprehensive Change Interpretation and Analysis from Change Detection and Change Captioning
- Title(参考訳): Change-Agent: 対話型包括的変更解釈と変更検出と変更キャプションからの分析を目指して
- Authors: Chenyang Liu, Keyan Chen, Haotian Zhang, Zipeng Qi, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: 現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。
本稿では,多段階変化解釈モデル(MCI)を眼として,大言語モデル(LLM)を脳として統合した対話型変化エージェントを提案する。
我々のChange-Agentは、ユーザ指示に従って、包括的な変更解釈と洞察に富んだ分析を実現するために、ユーザ指示に従うことができる。
- 参考スコア(独自算出の注目度): 28.3763053922823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring changes in the Earth's surface is crucial for understanding natural processes and human impacts, necessitating precise and comprehensive interpretation methodologies. Remote sensing satellite imagery offers a unique perspective for monitoring these changes, leading to the emergence of remote sensing image change interpretation (RSICI) as a significant research focus. Current RSICI technology encompasses change detection and change captioning, each with its limitations in providing comprehensive interpretation. To address this, we propose an interactive Change-Agent which integrates a multi-level change interpretation (MCI) model as eyes and a large language model (LLM) as the brain. Our Change-Agent can follow user instructions to achieve comprehensive change interpretation and insightful analysis according to user instructions, such as change detection and change captioning, change object counting, change cause analysis, etc. Our proposed MCI model contains two branches of pixel-level change detection and semantic-level change captioning, in which multiple BI-temporal Iterative Interaction (BI3) layers utilize Local Perception Enhancement (LPE) and the Global Difference Fusion Attention (GDFA) modules to enhance the model's discriminative feature representation capabilities. To train the MCI model, we build the LEVIR-MCI dataset with change masks and captions of bi-temporal images. Extensive experiments demonstrate the effectiveness of the proposed change interpretation model and highlight the promising potential of our Change-Agent in facilitating comprehensive and intelligent interpretation of surface changes. We will make our dataset and codebase of the change interpretation model and Change-Agent publicly available to facilitate future research at https://github.com/Chen-Yang-Liu/Change-Agent
- Abstract(参考訳): 地球表面における変化のモニタリングは、自然の過程や人間の影響を理解するために不可欠であり、精密で包括的な解釈手法を必要とする。
リモートセンシング衛星画像は、これらの変化を監視するためのユニークな視点を提供し、重要な研究焦点としてリモートセンシング画像変化解釈(RSICI)の出現につながった。
現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。
そこで本研究では,多段階変化解釈モデル(MCI)を眼として,大言語モデル(LLM)を脳として統合した対話型変化エージェントを提案する。
我々のChange-Agentは、変更検出や変更キャプション、変更オブジェクトカウント、変更原因分析など、ユーザ指示に従って、包括的な変更解釈と洞察に富んだ分析を実現するために、ユーザ指示に従うことができます。
提案するMCIモデルは,複数のBI時間的反復的相互作用(BI3)層が局所知覚強調(LPE)とグローバル差分融合注意(GDFA)モジュールを用いて,モデルの識別的特徴表現能力を向上する,画素レベルの変化検出と意味レベルの変化キャプションの2つのブランチを含む。
MCIモデルをトレーニングするために、変更マスクとバイテンポラル画像のキャプションを備えたLEVIR-MCIデータセットを構築した。
大規模な実験は、提案した変化解釈モデルの有効性を実証し、表面変化の包括的かつインテリジェントな解釈を促進する上で、我々の変化-エージェントの有望な可能性を強調している。
変更解釈モデルのデータセットとコードベースとChange-Agentを公開して、https://github.com/Chen-Yang-Liu/Change-Agentで将来の研究を促進するつもりです。
関連論文リスト
- ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。
本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T17:47:14Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Segment Any Change [70.17716393332482]
本稿では、ゼロショット予測と、見えない変更タイプやデータ分布の一般化をサポートする新しいタイプの変更検出モデルを提案する。
AnyChangeは、トレーニング不要適応法、バイテンポラルラテントマッチングを通じてSAM(Se segment Any Model)上に構築されます。
また、AnyChangeのゼロショットオブジェクト中心の変更検出機能を有効にするためのポイントクエリ機構を提案する。
論文 参考訳(メタデータ) (2024-02-02T07:17:39Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Explicit Change Relation Learning for Change Detection in VHR Remote
Sensing Images [12.228675703851733]
変更関係の特徴を明示的にマイニングするためのネットワークアーキテクチャNAMEを提案する。
変更検出の変更特徴は、事前変更画像特徴、後変更画像特徴、変更関係特徴に分けられる。
我々のネットワークは、F1、IoU、OAの点で、変更検出のための既存の先進的なネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-11-14T08:47:38Z) - Transformer-based Multimodal Change Detection with Multitask Consistency Constraints [10.906283981247796]
現在の変化検出方法は、意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に対処する。
そこで我々は,クロスアテンションにより,多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。
提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。
論文 参考訳(メタデータ) (2023-10-13T17:38:45Z) - Changer: Feature Interaction is What You Need for Change Detection [6.385385687682811]
変化検出は、長期の地球観測ミッションにとって重要なツールである。
本稿では,特徴抽出器に代替的なインタラクション層を含む,新しい汎用的な変更検出アーキテクチャであるMetaChangerを提案する。
異なるスケール変化検出データセット上で,Changerシリーズモデルが競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2022-09-17T09:13:02Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - DASNet: Dual attentive fully convolutional siamese networks for change
detection of high resolution satellite images [17.839181739760676]
研究の目的は、関心の変化情報を識別し、無関係な変更情報を干渉要因としてフィルタリングすることである。
近年、ディープラーニングの台頭により、変化検出のための新しいツールが提供され、目覚ましい結果が得られた。
我々は,高解像度画像における変化検出のための新しい手法,すなわち,二重注意型完全畳み込みシームズネットワーク(DASNet)を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。