Fugu-MT 論文翻訳(概要): Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View

論文の概要: Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View

arxiv url: http://arxiv.org/abs/2406.05766v2
Date: Sat, 21 Sep 2024 09:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:44:51.720769
Title: Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View
Title（参考訳）: Set-CLIP:分散ビューによる低アライメントマルチモーダルデータからのアライメントセマンティック探索
Authors: Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Kaicheng yu, Wanyu Chen, Miaoyu Wang, Stan Z. Li,
Abstract要約: マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労している。本稿では,CLIPに基づく新しい手法であるSet-CLIPを提案する。
参考スコア（独自算出の注目度）: 35.389116270077324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal fusion breaks through the boundaries between diverse modalities and has already achieved notable performances. However, in many specialized fields, it is struggling to obtain sufficient alignment data for training, which seriously limits the use of previously effective models. Therefore, semi-supervised learning approaches are attempted to facilitate multimodal alignment by learning from low-alignment data with fewer matched pairs, but traditional techniques like pseudo-labeling may run into troubles in the label-deficient scenarios. To tackle these challenges, we reframe semi-supervised multimodal alignment as a manifold matching issue and propose a new methodology based on CLIP, termed Set-CLIP. Specifically, by designing a novel semantic density distribution loss, we constrain the latent representation distribution with fine granularity and extract implicit semantic alignment from unpaired multimodal data, thereby reducing the reliance on numerous strictly matched pairs. Furthermore, we apply coarse-grained modality adaptation and unimodal self-supervised guidance to narrow the gaps between modality spaces and improve the stability of representation distributions. Extensive experiments conducted on a range of tasks in various fields, including protein analysis, remote sensing, and the general vision-language field, validate the efficacy of our proposed Set-CLIP method. Especially with no paired data for supervised training, Set-CLIP is still outstanding, which brings an improvement of 144.83% over CLIP.
Abstract（参考訳）: マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。しかし、多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労しており、これは以前に有効であったモデルの使用を著しく制限している。したがって、半教師付き学習アプローチは、マッチングペアが少ない低アライメントデータから学習することで、マルチモーダルアライメントを促進するために試みられているが、擬似ラベルのような従来の手法は、ラベル不足のシナリオで問題が発生する可能性がある。これらの課題に対処するため,我々は,半教師付きマルチモーダルアライメントを多様体マッチング問題として再設計し,CLIPに基づく新しい手法であるSet-CLIPを提案する。具体的には、新しい意味密度分布の損失を設計することにより、潜在表現分布を細粒度で制限し、未対応のマルチモーダルデータから暗黙的な意味的アライメントを抽出し、厳密に整合した多くのペアへの依存を減らす。さらに,モーダル空間間のギャップを狭くし,表現分布の安定性を向上させるために,粗粒度適応と一様自己指導法を適用した。タンパク質分析,リモートセンシング,一般視覚言語分野など,様々な分野において広範囲にわたる実験を行い,Set-CLIP法の有効性を検証した。特に教師付きトレーニングのためのペアデータがないため、Set-CLIPは依然として優れており、CLIPよりも144.83%改善されている。

関連論文リスト

Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文参考訳（メタデータ） (2025-07-23T09:12:25Z)
Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
Learning to Match Unpaired Data with Minimum Entropy Coupling [7.399561232927219]
最小エントロピー結合(Minimum Entropy Coupling)は、限界の制約を満たすとともに、合同エントロピーを最小化する。本稿では、よく知られた生成拡散モデルを用いて、連続MEC問題の解法を提案する。我々は,本手法が汎用的であり,課題解決に容易に利用できることを実証的に実証した。
論文参考訳（メタデータ） (2025-03-11T14:54:14Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシー=シュワルツの発散と相互情報を統合することで、分布型視覚言語アライメントを実現する新しいフレームワークを提案する。提案フレームワークでは,CSの分散と相互情報は多モーダルアライメントにおいて相補的な役割を担い,各モーダルのグローバル分布情報とペアのセマンティック関係の両方をキャプチャする。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。既存のSHGLメソッドには2つの大きな制限がある。ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-12-01T09:33:20Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文参考訳（メタデータ） (2024-09-19T02:12:26Z)
Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文参考訳（メタデータ） (2023-08-28T18:48:34Z)
Continual Vision-Language Representation Learning with Off-Diagonal Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文参考訳（メタデータ） (2023-05-11T08:04:46Z)
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger [30.758184720183106]
我々は厳密な1対1の制約を緩和し、ソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案する。特に、ImageNetゼロショット分類タスクでは、事前トレーニングデータセットとしてCC3M/CC12Mを使用して、SoftCLIPは6.8%/7.2%というトップ1の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-30T17:27:22Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly Supervised Semantic Segmentation [48.294903659573585]
本稿では,多段階アプローチの親和性学習を単一段階モデルに組み込むことを提案する。深層ニューラルネットワークは、トレーニングフェーズで包括的なセマンティック情報を提供するために使用される。提案手法の有効性を評価するため,PASCAL VOC 2012データセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-08-03T07:48:33Z)
Weakly supervised segmentation with cross-modality equivariant constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文参考訳（メタデータ） (2021-04-06T13:14:20Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。