論文の概要: Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment
- arxiv url: http://arxiv.org/abs/2406.05766v1
- Date: Sun, 9 Jun 2024 12:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:07:23.208350
- Title: Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment
- Title(参考訳): Gentle-CLIP: ソフトアライメントによる低品質マルチモーダルデータにおけるアライメントセマンティック探索
- Authors: Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Jiangbin Zheng, Kaicheng yu, Wanyu Chen, Stan Z. Li,
- Abstract要約: マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。
様々な専門分野において、トレーニングプロセスに十分なアライメントデータを得るのに苦労している。
我々は,半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し,Gentle-CLIPというCLIPに基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 38.38565939595014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal fusion breaks through the barriers between diverse modalities and has already yielded numerous impressive performances. However, in various specialized fields, it is struggling to obtain sufficient alignment data for the training process, which seriously limits the use of previously elegant models. Thus, semi-supervised learning attempts to achieve multimodal alignment with fewer matched pairs but traditional methods like pseudo-labeling are difficult to apply in domains with no label information. To address these problems, we transform semi-supervised multimodal alignment into a manifold matching problem and propose a new method based on CLIP, named Gentle-CLIP. Specifically, we design a novel semantic density distribution loss to explore implicit semantic alignment information from unpaired multimodal data by constraining the latent representation distribution with fine granularity, thus eliminating the need for numerous strictly matched pairs. Meanwhile, we introduce multi-kernel maximum mean discrepancy as well as self-supervised contrastive loss to pull separate modality distributions closer and enhance the stability of the representation distribution. In addition, the contrastive loss used in CLIP is employed on the supervised matched data to prevent negative optimization. Extensive experiments conducted on a range of tasks in various fields, including protein, remote sensing, and the general vision-language field, demonstrate the effectiveness of our proposed Gentle-CLIP.
- Abstract(参考訳): マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。
しかし、様々な専門分野において、従来のエレガントなモデルの使用を著しく制限する訓練プロセスのための十分なアライメントデータを得るのに苦労している。
このように、半教師付き学習は、マッチングの少ないペアでマルチモーダルアライメントを実現しようとするが、ラベル情報を持たないドメインに擬似ラベルのような従来の手法を適用することは困難である。
これらの問題に対処するため、半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し、Gentle-CLIPというCLIPに基づく新しい手法を提案する。
具体的には,不適合なマルチモーダルデータから暗黙的なセマンティックアライメント情報を求めるために,潜在表現分布を細粒度に制限することにより,多数の厳密なマッチングペアの必要性を排除し,新しいセマンティックアライメント分布の損失を設計する。
一方、マルチカーネルの最大平均誤差と自己教師付きコントラスト損失を導入し、各モード分布を近づき、表現分布の安定性を高める。
さらに、CLIPで使用されるコントラスト損失を教師付きマッチングデータに適用し、負の最適化を防止する。
タンパク質, リモートセンシング, 一般視覚言語など, 様々な分野のタスクにおいて, 広範囲にわたる実験を行い, 提案したGentle-CLIPの有効性を実証した。
関連論文リスト
- Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Deep Multi-View Semi-Supervised Clustering with Sample Pairwise
Constraints [10.226754903113164]
本稿では,ネットワークファインタニングにおける3種類の損失を協調的に最適化するDMSC法を提案する。
提案手法は,最先端のマルチビューやシングルビューの競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-10T08:51:56Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly
Supervised Semantic Segmentation [48.294903659573585]
本稿では,多段階アプローチの親和性学習を単一段階モデルに組み込むことを提案する。
深層ニューラルネットワークは、トレーニングフェーズで包括的なセマンティック情報を提供するために使用される。
提案手法の有効性を評価するため,PASCAL VOC 2012データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-08-03T07:48:33Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。