論文の概要: MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP
- arxiv url: http://arxiv.org/abs/2601.08420v1
- Date: Tue, 13 Jan 2026 10:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.156785
- Title: MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP
- Title(参考訳): MMLGNet:CLIPを用いたリモートセンシングデータの相互アライメント
- Authors: Aditya Chaudhary, Sneha Barman, Mainak Singha, Ankit Jha, Girish Mishra, Biplab Banerjee,
- Abstract要約: 異種リモートセンシングと自然言語のセマンティクスを協調する新しいフレームワークMMLGNetを提案する。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
- 参考スコア(独自算出の注目度): 21.89022894877594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel multimodal framework, Multimodal Language-Guided Network (MMLGNet), to align heterogeneous remote sensing modalities like Hyperspectral Imaging (HSI) and LiDAR with natural language semantics using vision-language models such as CLIP. With the increasing availability of multimodal Earth observation data, there is a growing need for methods that effectively fuse spectral, spatial, and geometric information while enabling semantic-level understanding. MMLGNet employs modality-specific encoders and aligns visual features with handcrafted textual embeddings in a shared latent space via bi-directional contrastive learning. Inspired by CLIP's training paradigm, our approach bridges the gap between high-dimensional remote sensing data and language-guided interpretation. Notably, MMLGNet achieves strong performance with simple CNN-based encoders, outperforming several established multimodal visual-only methods on two benchmark datasets, demonstrating the significant benefit of language supervision. Codes are available at https://github.com/AdityaChaudhary2913/CLIP_HSI.
- Abstract(参考訳): 本稿では,Multimodal Language-Guided Network(MMLGNet)という新しいマルチモーダル・フレームワークを提案する。
マルチモーダル地球観測データの普及に伴い、スペクトル、空間、幾何学的情報を効果的に融合し、セマンティックレベルの理解を可能にする手法の必要性が高まっている。
MMLGNetは、モダリティ固有のエンコーダを採用し、双方向のコントラスト学習を通じて、共有潜在空間に手作りのテキスト埋め込みを組み込む。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
特に、MMLGNetは、単純なCNNベースのエンコーダで強力なパフォーマンスを達成し、2つのベンチマークデータセットで確立された複数のマルチモーダル視覚のみの手法より優れており、言語管理の大きなメリットを示している。
コードはhttps://github.com/AdityaChaudhary2913/CLIP_HSIで公開されている。
関連論文リスト
- HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models [4.59200581394731]
HMVLAは、視覚と言語における固有の階層構造を利用して、包括的なセマンティックアライメントを実現する。
我々のHMVLAは双曲空間にマルチモーダルな特徴を埋め込んで、画像テキストデータに存在する階層関係をより効果的にモデリングすることを可能にする。
論文 参考訳(メタデータ) (2026-01-28T07:50:30Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して-
マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文 参考訳(メタデータ) (2024-12-03T16:53:58Z) - Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。
凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。