論文の概要: Geodesic Multi-Modal Mixup for Robust Fine-Tuning
- arxiv url: http://arxiv.org/abs/2203.03897v4
- Date: Tue, 7 Nov 2023 00:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 20:20:25.741707
- Title: Geodesic Multi-Modal Mixup for Robust Fine-Tuning
- Title(参考訳): ロバスト微調整のための測地線マルチモーダル混合法
- Authors: Changdae Oh, Junhyuk So, Hoyoon Byun, YongTaek Lim, Minchul Shin,
Jong-June Jeon, Kyungwoo Song
- Abstract要約: 微調整後でもCLIPは均一性や整列性に乏しいことが判明した。
画像とテキストの埋め込みを混合してハードネガティブなサンプルを生成するジオデシック・マルチモーダル・ミックスアップを提案する。
本手法は,多種多様なタスクに対するロバストなモデル適応を実現するため,転送可能な表現を提供する。
- 参考スコア(独自算出の注目度): 21.298732743643168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained multi-modal models, such as CLIP, provide transferable embeddings
and show promising results in diverse applications. However, the analysis of
learned multi-modal embeddings is relatively unexplored, and the embedding
transferability can be improved. In this work, we observe that CLIP holds
separated embedding subspaces for two different modalities, and then we
investigate it through the lens of uniformity-alignment to measure the quality
of learned representation. Both theoretically and empirically, we show that
CLIP retains poor uniformity and alignment even after fine-tuning. Such a lack
of alignment and uniformity might restrict the transferability and robustness
of embeddings. To this end, we devise a new fine-tuning method for robust
representation equipping better alignment and uniformity. First, we propose a
Geodesic Multi-Modal Mixup that mixes the embeddings of image and text to
generate hard negative samples on the hypersphere. Then, we fine-tune the model
on hard negatives as well as original negatives and positives with contrastive
loss. Based on the theoretical analysis about hardness guarantee and limiting
behavior, we justify the use of our method. Extensive experiments on retrieval,
calibration, few- or zero-shot classification (under distribution shift),
embedding arithmetic, and image captioning further show that our method
provides transferable representations, enabling robust model adaptation on
diverse tasks. Code: https://github.com/changdaeoh/multimodal-mixup
- Abstract(参考訳): CLIPのような事前訓練されたマルチモーダルモデルは、転送可能な埋め込みを提供し、多様なアプリケーションで有望な結果を示す。
しかし、学習したマルチモーダル埋め込みの解析は比較的未探索であり、埋め込み転送性を向上させることができる。
本研究では,CLIPが2つの異なるモードで分離された埋め込み部分空間を保持することを観察し,一様配向レンズを用いて学習表現の質を測定する。
理論的にも経験的にも,CLIPは微調整後も均一性やアライメントに乏しいことが示されている。
このようなアライメントと均一性の欠如は、埋め込みの転送可能性とロバスト性を制限する可能性がある。
そこで本研究では,アライメントと均一性に富むロバスト表現のための新しい微調整手法を提案する。
まず、画像とテキストの埋め込みを混合し、超球面上の硬い負のサンプルを生成するGeodesic Multi-Modal Mixupを提案する。
次に、ハード負のモデルと元の負のモデルと対照損失の正のモデルを微調整する。
硬さ保証と限界行動に関する理論的分析に基づき,本手法の使用を正当化する。
検索,キャリブレーション,少数あるいはゼロショットの分類(分布シフト),埋め込み算術,画像キャプションの広範な実験により,本手法が伝達可能な表現を提供し,多様なタスクに頑健なモデル適応を可能にすることを示す。
コード: https://github.com/changdaeoh/multimodal-mixup
関連論文リスト
- Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Multi-Head Multi-Loss Model Calibration [13.841172927454204]
我々は,深層アンサンブルの訓練と推論に要する費用を省く,単純化されたアンサンブルの形式を導入する。
具体的には、各頭部は、重み付きクロスエントロピー損失を最小限に抑えるために訓練されるが、重みは異なる枝によって異なる。
その結果,2つの挑戦データセットにおいて精度を犠牲にすることなく,精度の高いキャリブレーションを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-03-02T09:32:32Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Modulated Contrast for Versatile Image Synthesis [60.304183493234376]
MoNCEは画像のコントラストを導入し、多面的画像間距離の知覚のための校正基準を学習する。
複数の対照的な目的に対して協調的に負のサンプルのプッシュ力を変調するために,MoNCEの最適輸送を導入する。
論文 参考訳(メタデータ) (2022-03-17T14:03:46Z) - Robustness via Uncertainty-aware Cycle Consistency [44.34422859532988]
非ペア画像-画像間の変換とは、対応する画像対を使わずに画像間マッピングを学習することを指す。
既存の手法は、外乱や予測の不確実性にロバスト性を明示的にモデル化することなく決定論的マッピングを学習する。
不確実性を考慮した一般化適応サイクル一貫性(UGAC)に基づく新しい確率的手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T15:33:21Z) - TRS: Transferability Reduced Ensemble via Encouraging Gradient Diversity
and Model Smoothness [14.342349428248887]
逆転性(Adversarial Transferability)は、逆転性(adversarial)の例の興味深い特性である。
本稿では,モデル間の移動性に関する十分な条件を理論的に解析する。
本稿では,そのロバスト性を改善するために,アンサンブル内の転送性を低減するための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:58:35Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - The Bures Metric for Generative Adversarial Networks [10.69910379275607]
GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。
実バッチの多様性と偽バッチの多様性を一致させることを提案する。
多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T12:04:41Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。