論文の概要: Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration
- arxiv url: http://arxiv.org/abs/2510.19579v1
- Date: Wed, 22 Oct 2025 13:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.829909
- Title: Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration
- Title(参考訳): 地球観測のためのマルチモーダルコラーニング:モーダル協調による単一モーダルモデルの強化
- Authors: Francisco Mena, Dino Ienco, Cassio F. Dantas, Roberto Interdonato, Andreas Dengel,
- Abstract要約: 推論の特定のモダリティを目標にすることなく、様々なタスクを一般化できる新しいマルチモーダル・コラーニングフレームワークを提案する。
我々のアプローチは、対照的かつモダリティの識別学習を組み合わせ、単一のモダリティモデルを誘導し、内部モデル多様体をモダリティ共有およびモダリティ固有情報に構造化する。
- 参考スコア(独自算出の注目度): 9.66105329596482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal co-learning is emerging as an effective paradigm in machine learning, enabling models to collaboratively learn from different modalities to enhance single-modality predictions. Earth Observation (EO) represents a quintessential domain for multi-modal data analysis, wherein diverse remote sensors collect data to sense our planet. This unprecedented volume of data introduces novel challenges. Specifically, the access to the same sensor modalities at both training and inference stages becomes increasingly complex based on real-world constraints affecting remote sensing platforms. In this context, multi-modal co-learning presents a promising strategy to leverage the vast amount of sensor-derived data available at the training stage to improve single-modality models for inference-time deployment. Most current research efforts focus on designing customized solutions for either particular downstream tasks or specific modalities available at the inference stage. To address this, we propose a novel multi-modal co-learning framework capable of generalizing across various tasks without targeting a specific modality for inference. Our approach combines contrastive and modality discriminative learning together to guide single-modality models to structure the internal model manifold into modality-shared and modality-specific information. We evaluate our framework on four EO benchmarks spanning classification and regression tasks across different sensor modalities, where only one of the modalities available during training is accessible at inference time. Our results demonstrate consistent predictive improvements over state-of-the-art approaches from the recent machine learning and computer vision literature, as well as EO-specific methods. The obtained findings validate our framework in the single-modality inference scenarios across a diverse range of EO applications.
- Abstract(参考訳): マルチモーダル・コラーニングは機械学習の効果的なパラダイムとして登場しており、モデルが異なるモーダルから協調的に学習し、単一モーダル予測を強化することができる。
地球観測(EO)はマルチモーダルデータ分析のための重要な領域であり、多様なリモートセンサーがデータを収集して地球を感知する。
この前例のない量のデータには、新たな課題が伴う。
具体的には、リモートセンシングプラットフォームに影響を及ぼす現実的な制約に基づいて、トレーニングと推論の段階で同じセンサーモードにアクセスすることは、ますます複雑になる。
この文脈では、マルチモーダルなコラーニングは、トレーニング段階で利用可能な大量のセンサから得られるデータを活用して、推論時デプロイメントのための単一モダリティモデルを改善する、有望な戦略を示す。
現在の研究は、特定の下流タスクや推論段階で利用可能な特定のモダリティのためにカスタマイズされたソリューションを設計することに焦点を当てている。
そこで本研究では,推論の特定のモダリティを目標にすることなく,様々なタスクを一般化可能な,新しいマルチモーダル・コラーニングフレームワークを提案する。
我々のアプローチは、対照的かつモダリティの識別学習を組み合わせ、単一のモダリティモデルを誘導し、内部モデル多様体をモダリティ共有およびモダリティ固有情報に構造化する。
我々は,異なるセンサモードにまたがる分類タスクと回帰タスクにまたがる4つのEOベンチマークにおいて,トレーニング中に利用できるモダリティのうち1つのみが推論時にアクセス可能であることを評価した。
その結果,最近の機械学習やコンピュータビジョンの文献,さらにはEO特有の手法から,最先端のアプローチに対する一貫した予測的改善が示された。
得られた結果は,多種多様なEOアプリケーションを対象とした単一モダリティ推論シナリオにおいて,我々のフレームワークを検証した。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。