論文の概要: Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment
- arxiv url: http://arxiv.org/abs/2406.05766v1
- Date: Sun, 9 Jun 2024 12:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:07:23.208350
- Title: Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment
- Title(参考訳): Gentle-CLIP: ソフトアライメントによる低品質マルチモーダルデータにおけるアライメントセマンティック探索
- Authors: Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Jiangbin Zheng, Kaicheng yu, Wanyu Chen, Stan Z. Li,
- Abstract要約: マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。
様々な専門分野において、トレーニングプロセスに十分なアライメントデータを得るのに苦労している。
我々は,半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し,Gentle-CLIPというCLIPに基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 38.38565939595014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal fusion breaks through the barriers between diverse modalities and has already yielded numerous impressive performances. However, in various specialized fields, it is struggling to obtain sufficient alignment data for the training process, which seriously limits the use of previously elegant models. Thus, semi-supervised learning attempts to achieve multimodal alignment with fewer matched pairs but traditional methods like pseudo-labeling are difficult to apply in domains with no label information. To address these problems, we transform semi-supervised multimodal alignment into a manifold matching problem and propose a new method based on CLIP, named Gentle-CLIP. Specifically, we design a novel semantic density distribution loss to explore implicit semantic alignment information from unpaired multimodal data by constraining the latent representation distribution with fine granularity, thus eliminating the need for numerous strictly matched pairs. Meanwhile, we introduce multi-kernel maximum mean discrepancy as well as self-supervised contrastive loss to pull separate modality distributions closer and enhance the stability of the representation distribution. In addition, the contrastive loss used in CLIP is employed on the supervised matched data to prevent negative optimization. Extensive experiments conducted on a range of tasks in various fields, including protein, remote sensing, and the general vision-language field, demonstrate the effectiveness of our proposed Gentle-CLIP.
- Abstract(参考訳): マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。
しかし、様々な専門分野において、従来のエレガントなモデルの使用を著しく制限する訓練プロセスのための十分なアライメントデータを得るのに苦労している。
このように、半教師付き学習は、マッチングの少ないペアでマルチモーダルアライメントを実現しようとするが、ラベル情報を持たないドメインに擬似ラベルのような従来の手法を適用することは困難である。
これらの問題に対処するため、半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し、Gentle-CLIPというCLIPに基づく新しい手法を提案する。
具体的には,不適合なマルチモーダルデータから暗黙的なセマンティックアライメント情報を求めるために,潜在表現分布を細粒度に制限することにより,多数の厳密なマッチングペアの必要性を排除し,新しいセマンティックアライメント分布の損失を設計する。
一方、マルチカーネルの最大平均誤差と自己教師付きコントラスト損失を導入し、各モード分布を近づき、表現分布の安定性を高める。
さらに、CLIPで使用されるコントラスト損失を教師付きマッチングデータに適用し、負の最適化を防止する。
タンパク質, リモートセンシング, 一般視覚言語など, 様々な分野のタスクにおいて, 広範囲にわたる実験を行い, 提案したGentle-CLIPの有効性を実証した。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger [30.758184720183106]
我々は厳密な1対1の制約を緩和し、ソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案する。
特に、ImageNetゼロショット分類タスクでは、事前トレーニングデータセットとしてCC3M/CC12Mを使用して、SoftCLIPは6.8%/7.2%というトップ1の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-30T17:27:22Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly
Supervised Semantic Segmentation [48.294903659573585]
本稿では,多段階アプローチの親和性学習を単一段階モデルに組み込むことを提案する。
深層ニューラルネットワークは、トレーニングフェーズで包括的なセマンティック情報を提供するために使用される。
提案手法の有効性を評価するため,PASCAL VOC 2012データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-08-03T07:48:33Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。