論文の概要: Multi-Modal Mixup for Robust Fine-tuning
- arxiv url: http://arxiv.org/abs/2203.03897v1
- Date: Tue, 8 Mar 2022 07:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 23:49:56.591414
- Title: Multi-Modal Mixup for Robust Fine-tuning
- Title(参考訳): ロバスト微調整のためのマルチモーダルミックスアップ
- Authors: Junhyuk So, Changdae Oh, Minchul Shin, Kyungwoo Song
- Abstract要約: 本稿では,多モード埋め込みを均一性とアライメントの観点から理解するための視点を提供する。
本稿では、画像とテキストの表現を混合してハードネガティブなサンプルを生成するマルチモーダルミックスアップ、$m2$-Mixを提案する。
- 参考スコア(独自算出の注目度): 17.51425211257015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large-scale models provide a transferable embedding, and they
show comparable performance on the diverse downstream task. However, the
transferability of multi-modal learning is restricted, and the analysis of
learned embedding has not been explored well. This paper provides a perspective
to understand the multi-modal embedding in terms of uniformity and alignment.
We newly find that the representation learned by multi-modal learning models
such as CLIP has a two separated representation space for each heterogeneous
dataset with less alignment. Besides, there are unexplored large intermediate
areas between two modalities with less uniformity. Less robust embedding might
restrict the transferability of the representation for the downstream task.
This paper provides a new end-to-end fine-tuning method for robust
representation that encourages better uniformity and alignment score. First, we
propose a multi-modal Mixup, $m^{2}$-Mix that mixes the representation of image
and text to generate the hard negative samples. Second, we fine-tune the
multi-modal model on a hard negative sample as well as normal negative and
positive samples with contrastive learning. Our multi-modal Mixup provides a
robust representation, and we validate our methods on classification,
retrieval, and structure-awareness task.
- Abstract(参考訳): 事前訓練された大規模モデルは、転送可能な埋め込みを提供し、様々な下流タスクで同等のパフォーマンスを示す。
しかし、マルチモーダル学習の伝達性は制限されており、学習埋め込みの分析はよく研究されていない。
本稿では,多モード埋め込みを均一性とアライメントの観点から理解するための視点を提供する。
CLIPのようなマルチモーダル学習モデルで学習した表現は、アライメントの少ない異種データセットごとに2つの分離された表現空間を持つことがわかった。
さらに、2つのモダリティの間には、より均一性の低い大きな中間領域がある。
より堅牢な埋め込みは、下流タスクの表現の転送可能性を制限する可能性がある。
本稿では,統一性とアライメントスコアの向上を促すロバスト表現のための,新しいエンドツーエンドの微調整手法を提案する。
まず、画像とテキストの表現を混合してハードネガティブなサンプルを生成するマルチモーダル・ミックスアップ、$m^{2}$-Mixを提案する。
第二に、強陰性サンプルのマルチモーダルモデルと、対照的な学習を伴う正常な負と正のサンプルを微調整する。
マルチモーダル・ミックスアップはロバストな表現を提供し,分類,検索,構造認識タスクの手法を検証する。
関連論文リスト
- Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Multi-Head Multi-Loss Model Calibration [13.841172927454204]
我々は,深層アンサンブルの訓練と推論に要する費用を省く,単純化されたアンサンブルの形式を導入する。
具体的には、各頭部は、重み付きクロスエントロピー損失を最小限に抑えるために訓練されるが、重みは異なる枝によって異なる。
その結果,2つの挑戦データセットにおいて精度を犠牲にすることなく,精度の高いキャリブレーションを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-03-02T09:32:32Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Modulated Contrast for Versatile Image Synthesis [60.304183493234376]
MoNCEは画像のコントラストを導入し、多面的画像間距離の知覚のための校正基準を学習する。
複数の対照的な目的に対して協調的に負のサンプルのプッシュ力を変調するために,MoNCEの最適輸送を導入する。
論文 参考訳(メタデータ) (2022-03-17T14:03:46Z) - Robustness via Uncertainty-aware Cycle Consistency [44.34422859532988]
非ペア画像-画像間の変換とは、対応する画像対を使わずに画像間マッピングを学習することを指す。
既存の手法は、外乱や予測の不確実性にロバスト性を明示的にモデル化することなく決定論的マッピングを学習する。
不確実性を考慮した一般化適応サイクル一貫性(UGAC)に基づく新しい確率的手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T15:33:21Z) - TRS: Transferability Reduced Ensemble via Encouraging Gradient Diversity
and Model Smoothness [14.342349428248887]
逆転性(Adversarial Transferability)は、逆転性(adversarial)の例の興味深い特性である。
本稿では,モデル間の移動性に関する十分な条件を理論的に解析する。
本稿では,そのロバスト性を改善するために,アンサンブル内の転送性を低減するための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:58:35Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - The Bures Metric for Generative Adversarial Networks [10.69910379275607]
GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。
実バッチの多様性と偽バッチの多様性を一致させることを提案する。
多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T12:04:41Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。