論文の概要: Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization
- arxiv url: http://arxiv.org/abs/2211.02077v1
- Date: Thu, 3 Nov 2022 18:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 15:41:44.745153
- Title: Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization
- Title(参考訳): クロスモダリティ勾配調和によるマルチモーダル事前学習のスケーリング
- Authors: Junru Wu, Yi Liang, Feng Han, Hassan Akbari, Zhangyang Wang, Cong Yu
- Abstract要約: 自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
- 参考スコア(独自算出の注目度): 68.49738668084693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training recently demonstrates success on large-scale
multimodal data, and state-of-the-art contrastive learning methods often
enforce the feature consistency from cross-modality inputs, such as video/audio
or video/text pairs. Despite its convenience to formulate and leverage in
practice, such cross-modality alignment (CMA) is only a weak and noisy
supervision, since two modalities can be semantically misaligned even they are
temporally aligned. For example, even in the commonly adopted instructional
videos, a speaker can sometimes refer to something that is not visually present
in the current frame; and the semantic misalignment would only be more
unpredictable for the raw videos from the internet. We conjecture that might
cause conflicts and biases among modalities, and may hence prohibit CMA from
scaling up to training with larger and more heterogeneous data. This paper
first verifies our conjecture by observing that, even in the latest VATT
pre-training using only instructional videos, there exist strong gradient
conflicts between different CMA losses within the same video, audio, text
triplet, indicating them as the noisy source of supervision. We then propose to
harmonize such gradients, via two techniques: (i) cross-modality gradient
realignment: modifying different CMA loss gradients for each sample triplet, so
that their gradient directions are more aligned; and (ii) gradient-based
curriculum learning: leveraging the gradient conflict information on an
indicator of sample noisiness, to develop a curriculum learning strategy to
prioritize training on less noisy sample triplets. Applying those techniques to
pre-training VATT on the HowTo100M dataset, we consistently improve its
performance on different downstream tasks. Moreover, we are able to scale VATT
pre-training to more complicated non-narrative Youtube8M dataset to further
improve the state-of-the-arts.
- Abstract(参考訳): 自己教師付き事前学習は、最近、大規模なマルチモーダルデータで成功を示しており、最先端のコントラスト学習手法は、ビデオ/オーディオやビデオ/テキストペアのような、モダリティ間の入力から特徴一貫性を強制することが多い。
実際には、形式化と活用が便利であるにもかかわらず、このような相互モダリティアライメント(CMA)は、時間的アライメントであっても2つのモダリティを意味的に誤解することができるため、弱くノイズの多い監視である。
例えば、一般的に採用されている指導ビデオでも、話者は時として現在のフレームに視覚的に存在しないものを参照することができる。
我々は、モダリティ間の矛盾や偏見を引き起こす恐れがあり、従ってCMAがより大きく異質なデータによるトレーニングにスケールアップすることを禁じるかもしれないと推測する。
本論文は,最新のVATT事前学習においても,映像,音声,テキスト三重奏の異なるCMA損失の間には,強い勾配の衝突が生じ,それらが監視のノイズ源であることを示す。
次に、これらの勾配を2つの手法で調和させることを提案する。
(i)クロスモダリティ勾配配向:各試料三重項に対して異なるCMA損失勾配を変更することにより、それらの勾配方向がより整列される。
(ii)グラデーションに基づくカリキュラム学習:サンプル不確かさ指標のグラデーションコンフリクト情報を活用して、よりノイズの少ないサンプル三重項のトレーニングを優先するカリキュラム学習戦略を開発する。
これらのテクニックをHowTo100Mデータセット上のVATTの事前トレーニングに適用することにより、さまざまな下流タスクのパフォーマンスを一貫して改善します。
さらに,vatt事前トレーニングを,より複雑な非ナレーション性youtube8mデータセットにスケールアップすることで,最先端をさらに改善することができる。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval [3.164991885881342]
クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T12:35:54Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - Few-Shot Classification with Contrastive Learning [10.236150550121163]
両段階に比較学習をシームレスに統合する,新しいコントラスト学習ベースのフレームワークを提案する。
メタトレーニングの段階において,同エピソードの2つの異なる視点から最寄りのセントロイド分類を行うための,クロスビュー・エピソード・トレーニング機構を提案する。
これらの2つの戦略は、ビュー間のバイアスを克服し、表現の転送可能性を促進するようモデルに強制する。
論文 参考訳(メタデータ) (2022-09-17T02:39:09Z) - PA-Seg: Learning from Point Annotations for 3D Medical Image
Segmentation using Contextual Regularization and Cross Knowledge Distillation [14.412073730567137]
本稿では,3次元医用画像の7点のみのセグメンテーションターゲットに注釈を付け,弱教師付き学習フレームワークPA-Segを設計する。
第1段階では、より監督的な信号を提供するために、シードポイントを拡張するために測地距離変換を用いる。
第2段階では、第1段階で事前学習されたモデルから得られた予測を擬似ラベルとして使用する。
論文 参考訳(メタデータ) (2022-08-11T07:00:33Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。