論文の概要: Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment
- arxiv url: http://arxiv.org/abs/2402.09816v1
- Date: Thu, 15 Feb 2024 09:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:17:25.949570
- Title: Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment
- Title(参考訳): モダリティギャップを意識する:クロスモーダルアライメントによるリモートセンシングビジョンランゲージモデルに向けて
- Authors: Angelos Zavras, Dimitrios Michail, Beg\"um Demir, Ioannis Papoutsis
- Abstract要約: 我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
- 参考スコア(独自算出の注目度): 2.389598109913754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning (DL) is undergoing a paradigm shift with the emergence of
foundation models, aptly named by their crucial, yet incomplete nature. In this
work, we focus on Contrastive Language-Image Pre-training (CLIP), an
open-vocabulary foundation model, which achieves high accuracy across many
image classification tasks and is often competitive with a fully supervised
baseline without being explicitly trained. Nevertheless, there are still
domains where zero-shot CLIP performance is far from optimal, such as Remote
Sensing (RS) and medical imagery. These domains do not only exhibit
fundamentally different distributions compared to natural images, but also
commonly rely on complementary modalities, beyond RGB, to derive meaningful
insights. To this end, we propose a methodology for the purpose of aligning
distinct RS imagery modalities with the visual and textual modalities of CLIP.
Our two-stage procedure, comprises of robust fine-tuning CLIP in order to deal
with the distribution shift, accompanied by the cross-modal alignment of a RS
modality encoder, in an effort to extend the zero-shot capabilities of CLIP. We
ultimately demonstrate our method on the tasks of RS imagery classification and
cross-modal retrieval. We empirically show that both robust fine-tuning and
cross-modal alignment translate to significant performance gains, across
several RS benchmark datasets. Notably, these enhancements are achieved without
the reliance on textual descriptions, without introducing any task-specific
parameters, without training from scratch and without catastrophic forgetting.
- Abstract(参考訳): ディープラーニング(dl)は、重要な、しかし不完全な性質からしばしば名付けられた基礎モデルの出現とともに、パラダイムシフトを行っている。
本研究では,多くの画像分類タスクにおいて高い精度を達成し,教師付きベースラインとの競合性も高いオープンボカブラリー基礎モデルであるclip(compactive language-image pre-training)に着目した。
それでも、リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域は依然として存在する。
これらの領域は自然画像と根本的に異なる分布を示すだけでなく、一般的にはRGB以外の相補的なモダリティに依存して意味のある洞察を導き出す。
そこで本稿では,CLIPの視覚的・テキスト的モダリティと,異なるRS画像モダリティを整合させる手法を提案する。
この2段階の手順は,CLIPのゼロショット能力を拡張すべく,RSモダリティエンコーダのクロスモーダルアライメントを伴う分散シフトに対応するために,堅牢な微調整CLIPから構成される。
rs画像分類とクロスモーダル検索の課題に対して,最終的に本手法を実証する。
我々は、ロバストな微調整とクロスモーダルなアライメントの両方が、いくつかのRSベンチマークデータセットにおいて大きなパフォーマンス向上をもたらすことを実証的に示す。
特に、これらの拡張はテキスト記述に頼ることなく、タスク固有のパラメータを導入することなく、スクラッチからのトレーニングも、破滅的な忘れもせずに達成されます。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval [29.838375158101027]
CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-29T13:02:35Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキスト・ベース・パーソナリティ・サーチ(TBPS)は,大規模ギャラリーから対象人物の正確な検索を可能にする重要なタスクである。
クロスモーダルTBPSタスクでは、共通埋め込み空間において、よく分散された表現を得ることが重要である。
本稿では,Sew and Masked Modeling (SCMM) という手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。