論文の概要: BTCChat: Advancing Remote Sensing Bi-temporal Change Captioning with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2509.05895v1
- Date: Sun, 07 Sep 2025 02:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.769099
- Title: BTCChat: Advancing Remote Sensing Bi-temporal Change Captioning with Multimodal Large Language Model
- Title(参考訳): BTCChat:マルチモーダル大言語モデルによるリモートセンシングバイテンポラルチェンジキャプションの改善
- Authors: Yujie Li, Wenjia Xu, Yuanben Zhang, Zhiwei Wei, Mugen Peng,
- Abstract要約: 両時間衛星画像は、都市開発監視や災害評価などの重要な応用を支援する。
従来の方法では、直接結合、時間的相関や空間的意味変化のモデル化が不十分であった。
BTCChatは,高度な両時間変化理解能力を持つ多時間MLLMである。
- 参考スコア(独自算出の注目度): 24.844748050706468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bi-temporal satellite imagery supports critical applications such as urban development monitoring and disaster assessment. Although powerful multimodal large language models (MLLMs) have been applied in bi-temporal change analysis, previous methods process image pairs through direct concatenation, inadequately modeling temporal correlations and spatial semantic changes. This deficiency hampers visual-semantic alignment in change understanding, thereby constraining the overall effectiveness of current approaches. To address this gap, we propose BTCChat, a multi-temporal MLLM with advanced bi-temporal change understanding capability. BTCChat supports bi-temporal change captioning and retains single-image interpretation capability. To better capture temporal features and spatial semantic changes in image pairs, we design a Change Extraction module. Moreover, to enhance the model's attention to spatial details, we introduce a Prompt Augmentation mechanism, which incorporates contextual clues into the prompt to enhance model performance. Experimental results demonstrate that BTCChat achieves state-of-the-art performance on change captioning and visual question answering tasks.
- Abstract(参考訳): 両時間衛星画像は、都市開発監視や災害評価などの重要な応用を支援する。
マルチモーダル大言語モデル (MLLM) は両時間的変化解析に応用されているが, 直接結合, 時間的相関のモデル化, 空間的意味変化のモデル化は不十分であった。
この欠陥は、変化理解における視覚的意味的アライメントを損なうため、現在のアプローチの全体的な効果を阻害する。
このギャップに対処するため,高度の両時間変化理解機能を備えた多時間MLLMであるBTCChatを提案する。
BTCChatは、バイテンポラルな変更キャプションをサポートし、シングルイメージの解釈能力を保持する。
画像ペアの時間的特徴や空間的意味変化をより正確に把握するために,変更抽出モジュールを設計する。
さらに,空間的詳細に対するモデルの注意力を高めるため,モデル性能を高めるプロンプトに文脈的手がかりを組み込んだPrompt Augmentation機構を導入する。
実験結果から,BTCChatは変化キャプションや視覚的質問応答タスクにおいて,最先端のパフォーマンスを実現することが示された。
関連論文リスト
- DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting [8.914172086217185]
本研究では,時間変化の理解と将来のシーン生成を両立させる新しい課題に対して,MLLM(Multimodal Large Language Model)の能力について検討する。
衛星画像の理解と予測のための時間対応マルチモーダルモデルTAMMを提案する。
論文 参考訳(メタデータ) (2025-06-23T17:26:16Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - Transformer for Multitemporal Hyperspectral Image Unmixing [17.365895881435563]
エンドツーエンドの教師なしディープラーニングモデルであるMultitemporal Hyperspectral Image Unmixing Transformer (MUFormer)を提案する。
我々は,グローバル・アウェアネス・モジュール(GAM)とチェンジ・エンハンスメント・モジュール(CEM)の2つの重要なモジュールを紹介する。
これらのモジュール間のシナジーにより、エンドメンバーとアブリダンスの変更に関するセマンティックな情報をキャプチャすることができる。
論文 参考訳(メタデータ) (2024-07-15T04:02:01Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。