論文の概要: MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP
- arxiv url: http://arxiv.org/abs/2601.08420v1
- Date: Tue, 13 Jan 2026 10:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.156785
- Title: MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP
- Title(参考訳): MMLGNet:CLIPを用いたリモートセンシングデータの相互アライメント
- Authors: Aditya Chaudhary, Sneha Barman, Mainak Singha, Ankit Jha, Girish Mishra, Biplab Banerjee,
- Abstract要約: 異種リモートセンシングと自然言語のセマンティクスを協調する新しいフレームワークMMLGNetを提案する。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
- 参考スコア(独自算出の注目度): 21.89022894877594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel multimodal framework, Multimodal Language-Guided Network (MMLGNet), to align heterogeneous remote sensing modalities like Hyperspectral Imaging (HSI) and LiDAR with natural language semantics using vision-language models such as CLIP. With the increasing availability of multimodal Earth observation data, there is a growing need for methods that effectively fuse spectral, spatial, and geometric information while enabling semantic-level understanding. MMLGNet employs modality-specific encoders and aligns visual features with handcrafted textual embeddings in a shared latent space via bi-directional contrastive learning. Inspired by CLIP's training paradigm, our approach bridges the gap between high-dimensional remote sensing data and language-guided interpretation. Notably, MMLGNet achieves strong performance with simple CNN-based encoders, outperforming several established multimodal visual-only methods on two benchmark datasets, demonstrating the significant benefit of language supervision. Codes are available at https://github.com/AdityaChaudhary2913/CLIP_HSI.
- Abstract(参考訳): 本稿では,Multimodal Language-Guided Network(MMLGNet)という新しいマルチモーダル・フレームワークを提案する。
マルチモーダル地球観測データの普及に伴い、スペクトル、空間、幾何学的情報を効果的に融合し、セマンティックレベルの理解を可能にする手法の必要性が高まっている。
MMLGNetは、モダリティ固有のエンコーダを採用し、双方向のコントラスト学習を通じて、共有潜在空間に手作りのテキスト埋め込みを組み込む。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
特に、MMLGNetは、単純なCNNベースのエンコーダで強力なパフォーマンスを達成し、2つのベンチマークデータセットで確立された複数のマルチモーダル視覚のみの手法より優れており、言語管理の大きなメリットを示している。
コードはhttps://github.com/AdityaChaudhary2913/CLIP_HSIで公開されている。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。
凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。