論文の概要: CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
- arxiv url: http://arxiv.org/abs/2411.11360v1
- Date: Mon, 18 Nov 2024 08:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:01.149914
- Title: CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset
- Title(参考訳): CCExpert: 差認識統合と基礎データセットによるリモートセンシング変更キャプションにおけるMLLM機能の向上
- Authors: Zhiming Wang, Mingze Wang, Sheng Xu, Yanjing Li, Baochang Zhang,
- Abstract要約: 本稿では,新しいマルチモーダル大規模モデルフレームワークであるCCExpertを提案する。
まず,両時間画像間のマルチスケール差をキャプチャする差分認識統合モジュールを設計する。
第2に、20万の画像対と120万のキャプションを含む、CC-Foundationと呼ばれる高品質で多様なデータセットを構築しました。
最後に,3段階のプログレッシブ・トレーニング・プロセスを用いて,事前学習したMLLMと差認識統合モジュールの深い統合を保証した。
- 参考スコア(独自算出の注目度): 26.056704438848985
- License:
- Abstract: Remote Sensing Image Change Captioning (RSICC) aims to generate natural language descriptions of surface changes between multi-temporal remote sensing images, detailing the categories, locations, and dynamics of changed objects (e.g., additions or disappearances). Many current methods attempt to leverage the long-sequence understanding and reasoning capabilities of multimodal large language models (MLLMs) for this task. However, without comprehensive data support, these approaches often alter the essential feature transmission pathways of MLLMs, disrupting the intrinsic knowledge within the models and limiting their potential in RSICC. In this paper, we propose a novel model, CCExpert, based on a new, advanced multimodal large model framework. Firstly, we design a difference-aware integration module to capture multi-scale differences between bi-temporal images and incorporate them into the original image context, thereby enhancing the signal-to-noise ratio of differential features. Secondly, we constructed a high-quality, diversified dataset called CC-Foundation, containing 200,000 image pairs and 1.2 million captions, to provide substantial data support for continue pretraining in this domain. Lastly, we employed a three-stage progressive training process to ensure the deep integration of the difference-aware integration module with the pretrained MLLM. CCExpert achieved a notable performance of $S^*_m=81.80$ on the LEVIR-CC benchmark, significantly surpassing previous state-of-the-art methods. The code and part of the dataset will soon be open-sourced at https://github.com/Meize0729/CCExpert.
- Abstract(参考訳): Remote Sensing Image Change Captioning (RSICC)は、複数の時間的リモートセンシング画像間の表面変化を自然言語で記述し、変更対象のカテゴリ、場所、ダイナミックス(加算、消失など)を詳細に記述することを目的としている。
現在の多くの手法は、このタスクにMLLM(Multimodal large language model)の長いシーケンス理解と推論能力を活用しようと試みている。
しかし、包括的データサポートがなければ、これらのアプローチはMLLMの本質的な特徴伝達経路を変更し、モデル内の固有の知識を妨害し、RSICCにおけるその可能性を制限する。
本稿では,新しいマルチモーダル大規模モデルフレームワークであるCCExpertを提案する。
まず、両時間画像間のマルチスケールの差を捉え、元の画像コンテキストに組み込むための差分認識統合モジュールを設計し、差分特徴の信号対雑音比を向上する。
第2に,20万のイメージペアと120万のキャプションを含む,CC-Foundationと呼ばれる高品質で多様化したデータセットを構築した。
最後に,3段階のプログレッシブ・トレーニング・プロセスを用いて,事前学習したMLLMと差認識統合モジュールの深い統合を保証した。
CCExpert は LEVIR-CC ベンチマークで$S^*_m=81.80$ の顕著な性能を達成した。
データセットのコードと部分は、間もなくhttps://github.com/Meize0729/CCExpert.comでオープンソース化される。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation [66.72195610471624]
Cross-Domain Sequential Recommendationは、異なるドメイン間でユーザのシーケンシャルな好みをマイニングし、転送することを目的としている。
本稿では,ユーザ検索手法を探索し,CDSRの性能向上を目的とした URLLM という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:19:54Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。