Fugu-MT 論文翻訳(概要): Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment

論文の概要: Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment

arxiv url: http://arxiv.org/abs/2406.05766v1
Date: Sun, 9 Jun 2024 12:41:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:07:23.208350
Title: Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment
Title（参考訳）: Gentle-CLIP: ソフトアライメントによる低品質マルチモーダルデータにおけるアライメントセマンティック探索
Authors: Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Jiangbin Zheng, Kaicheng yu, Wanyu Chen, Stan Z. Li,
Abstract要約: マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。様々な専門分野において、トレーニングプロセスに十分なアライメントデータを得るのに苦労している。我々は,半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し,Gentle-CLIPというCLIPに基づく新しい手法を提案する。
参考スコア（独自算出の注目度）: 38.38565939595014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal fusion breaks through the barriers between diverse modalities and has already yielded numerous impressive performances. However, in various specialized fields, it is struggling to obtain sufficient alignment data for the training process, which seriously limits the use of previously elegant models. Thus, semi-supervised learning attempts to achieve multimodal alignment with fewer matched pairs but traditional methods like pseudo-labeling are difficult to apply in domains with no label information. To address these problems, we transform semi-supervised multimodal alignment into a manifold matching problem and propose a new method based on CLIP, named Gentle-CLIP. Specifically, we design a novel semantic density distribution loss to explore implicit semantic alignment information from unpaired multimodal data by constraining the latent representation distribution with fine granularity, thus eliminating the need for numerous strictly matched pairs. Meanwhile, we introduce multi-kernel maximum mean discrepancy as well as self-supervised contrastive loss to pull separate modality distributions closer and enhance the stability of the representation distribution. In addition, the contrastive loss used in CLIP is employed on the supervised matched data to prevent negative optimization. Extensive experiments conducted on a range of tasks in various fields, including protein, remote sensing, and the general vision-language field, demonstrate the effectiveness of our proposed Gentle-CLIP.
Abstract（参考訳）: マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。しかし、様々な専門分野において、従来のエレガントなモデルの使用を著しく制限する訓練プロセスのための十分なアライメントデータを得るのに苦労している。このように、半教師付き学習は、マッチングの少ないペアでマルチモーダルアライメントを実現しようとするが、ラベル情報を持たないドメインに擬似ラベルのような従来の手法を適用することは困難である。これらの問題に対処するため、半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し、Gentle-CLIPというCLIPに基づく新しい手法を提案する。具体的には,不適合なマルチモーダルデータから暗黙的なセマンティックアライメント情報を求めるために,潜在表現分布を細粒度に制限することにより,多数の厳密なマッチングペアの必要性を排除し,新しいセマンティックアライメント分布の損失を設計する。一方、マルチカーネルの最大平均誤差と自己教師付きコントラスト損失を導入し、各モード分布を近づき、表現分布の安定性を高める。さらに、CLIPで使用されるコントラスト損失を教師付きマッチングデータに適用し、負の最適化を防止する。タンパク質, リモートセンシング, 一般視覚言語など, 様々な分野のタスクにおいて, 広範囲にわたる実験を行い, 提案したGentle-CLIPの有効性を実証した。

関連論文リスト

Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文参考訳（メタデータ） (2025-07-23T09:12:25Z)
Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
Learning to Match Unpaired Data with Minimum Entropy Coupling [7.399561232927219]
最小エントロピー結合(Minimum Entropy Coupling)は、限界の制約を満たすとともに、合同エントロピーを最小化する。本稿では、よく知られた生成拡散モデルを用いて、連続MEC問題の解法を提案する。我々は,本手法が汎用的であり,課題解決に容易に利用できることを実証的に実証した。
論文参考訳（メタデータ） (2025-03-11T14:54:14Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシー=シュワルツの発散と相互情報を統合することで、分布型視覚言語アライメントを実現する新しいフレームワークを提案する。提案フレームワークでは,CSの分散と相互情報は多モーダルアライメントにおいて相補的な役割を担い,各モーダルのグローバル分布情報とペアのセマンティック関係の両方をキャプチャする。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。既存のSHGLメソッドには2つの大きな制限がある。ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-12-01T09:33:20Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文参考訳（メタデータ） (2024-09-19T02:12:26Z)
Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文参考訳（メタデータ） (2023-08-28T18:48:34Z)
Continual Vision-Language Representation Learning with Off-Diagonal Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文参考訳（メタデータ） (2023-05-11T08:04:46Z)
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger [30.758184720183106]
我々は厳密な1対1の制約を緩和し、ソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案する。特に、ImageNetゼロショット分類タスクでは、事前トレーニングデータセットとしてCC3M/CC12Mを使用して、SoftCLIPは6.8%/7.2%というトップ1の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-30T17:27:22Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly Supervised Semantic Segmentation [48.294903659573585]
本稿では,多段階アプローチの親和性学習を単一段階モデルに組み込むことを提案する。深層ニューラルネットワークは、トレーニングフェーズで包括的なセマンティック情報を提供するために使用される。提案手法の有効性を評価するため,PASCAL VOC 2012データセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-08-03T07:48:33Z)
Weakly supervised segmentation with cross-modality equivariant constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文参考訳（メタデータ） (2021-04-06T13:14:20Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。