論文の概要: CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
- arxiv url: http://arxiv.org/abs/2411.11360v1
- Date: Mon, 18 Nov 2024 08:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:01.149914
- Title: CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
- Title(参考訳): CCExpert: 差認識統合と基礎データセットによるリモートセンシング変更キャプションにおけるMLLM機能の向上
- Authors: Zhiming Wang, Mingze Wang, Sheng Xu, Yanjing Li, Baochang Zhang,
- Abstract要約: 本稿では,新しいマルチモーダル大規模モデルフレームワークであるCCExpertを提案する。
まず,両時間画像間のマルチスケール差をキャプチャする差分認識統合モジュールを設計する。
第2に、20万の画像対と120万のキャプションを含む、CC-Foundationと呼ばれる高品質で多様なデータセットを構築しました。
最後に,3段階のプログレッシブ・トレーニング・プロセスを用いて,事前学習したMLLMと差認識統合モジュールの深い統合を保証した。
- 参考スコア(独自算出の注目度): 26.056704438848985
- License:
- Abstract: Remote Sensing Image Change Captioning (RSICC) aims to generate natural language descriptions of surface changes between multi-temporal remote sensing images, detailing the categories, locations, and dynamics of changed objects (e.g., additions or disappearances). Many current methods attempt to leverage the long-sequence understanding and reasoning capabilities of multimodal large language models (MLLMs) for this task. However, without comprehensive data support, these approaches often alter the essential feature transmission pathways of MLLMs, disrupting the intrinsic knowledge within the models and limiting their potential in RSICC. In this paper, we propose a novel model, CCExpert, based on a new, advanced multimodal large model framework. Firstly, we design a difference-aware integration module to capture multi-scale differences between bi-temporal images and incorporate them into the original image context, thereby enhancing the signal-to-noise ratio of differential features. Secondly, we constructed a high-quality, diversified dataset called CC-Foundation, containing 200,000 image pairs and 1.2 million captions, to provide substantial data support for continue pretraining in this domain. Lastly, we employed a three-stage progressive training process to ensure the deep integration of the difference-aware integration module with the pretrained MLLM. CCExpert achieved a notable performance of $S^*_m=81.80$ on the LEVIR-CC benchmark, significantly surpassing previous state-of-the-art methods. The code and part of the dataset will soon be open-sourced at https://github.com/Meize0729/CCExpert.
- Abstract(参考訳): Remote Sensing Image Change Captioning (RSICC)は、複数の時間的リモートセンシング画像間の表面変化を自然言語で記述し、変更対象のカテゴリ、場所、ダイナミックス(加算、消失など)を詳細に記述することを目的としている。
現在の多くの手法は、このタスクにMLLM(Multimodal large language model)の長いシーケンス理解と推論能力を活用しようと試みている。
しかし、包括的データサポートがなければ、これらのアプローチはMLLMの本質的な特徴伝達経路を変更し、モデル内の固有の知識を妨害し、RSICCにおけるその可能性を制限する。
本稿では,新しいマルチモーダル大規模モデルフレームワークであるCCExpertを提案する。
まず、両時間画像間のマルチスケールの差を捉え、元の画像コンテキストに組み込むための差分認識統合モジュールを設計し、差分特徴の信号対雑音比を向上する。
第2に,20万のイメージペアと120万のキャプションを含む,CC-Foundationと呼ばれる高品質で多様化したデータセットを構築した。
最後に,3段階のプログレッシブ・トレーニング・プロセスを用いて,事前学習したMLLMと差認識統合モジュールの深い統合を保証した。
CCExpert は LEVIR-CC ベンチマークで$S^*_m=81.80$ の顕著な性能を達成した。
データセットのコードと部分は、間もなくhttps://github.com/Meize0729/CCExpert.comでオープンソース化される。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - Multi-scale Feature Enhancement in Multi-task Learning for Medical Image Analysis [1.6916040234975798]
医用画像における伝統的な深層学習法は、分割や分類にのみ焦点をあてることが多い。
このモデルでは,デコーダがセグメント化マスクを生成するのに対して,エンコーダによって抽出された特徴を分類ラベルの予測に利用する。
複数の医療データセットにまたがる実験結果から, セグメンテーションタスクと分類タスクの両方において, モデルの優れた性能が確認された。
論文 参考訳(メタデータ) (2024-11-30T04:20:05Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。