論文の概要: TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2312.08846v4
- Date: Sat, 24 Feb 2024 03:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:47:30.577815
- Title: TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training
- Title(参考訳): TiMix:効果的なビジョンランゲージ事前学習のためのテキスト対応画像ミキシング
- Authors: Chaoya Jiang, Wei ye, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang,
Shikun Zhang
- Abstract要約: クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 42.142924806184425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised Multi-modal Contrastive Learning (SMCL) remarkably advances
modern Vision-Language Pre-training (VLP) models by aligning visual and
linguistic modalities. Due to noises in web-harvested text-image pairs,
however, scaling up training data volume in SMCL presents considerable
obstacles in terms of computational cost and data inefficiency. To improve data
efficiency in VLP, we propose Text-aware Image Mixing (TiMix), which integrates
mix-based data augmentation techniques into SMCL, yielding significant
performance improvements without significantly increasing computational
overhead. We provide a theoretical analysis of TiMixfrom a mutual information
(MI) perspective, showing that mixed data samples for cross-modal contrastive
learning implicitly serve as a regularizer for the contrastive loss. The
experimental results demonstrate that TiMix exhibits a comparable performance
on downstream tasks, even with a reduced amount of training data and shorter
training time, when benchmarked against existing methods. This work empirically
and theoretically demonstrates the potential of data mixing for data-efficient
and computationally viable VLP, benefiting broader VLP model adoption in
practical scenarios.
- Abstract(参考訳): 自己教師型マルチモーダル・コントラシティブ・ラーニング(SMCL)は、視覚的・言語的モダリティを整合させることにより、現代のビジョンランゲージ・プレトレーニング(VLP)モデルを大幅に進歩させる。
しかし、ウェブハーベストテキストイメージペアのノイズのため、SMCLにおけるトレーニングデータボリュームのスケールアップは、計算コストとデータ非効率の点でかなりの障害となる。
本稿では,vlpにおけるデータ効率を向上させるために,ミックスベースデータ拡張技術をsmclに統合したテキスト認識画像混合(timix)を提案する。
本稿では,相互情報(MI)の観点からTiMixの理論的解析を行い,相互学習のための混合データサンプルが,対照損失の正則化として暗黙的に機能していることを示す。
実験の結果,timoxは既存の手法に対してベンチマークを行った場合,トレーニングデータの量が少なく,トレーニング時間が短い場合でも,下流タスクで同等のパフォーマンスを示すことがわかった。
この研究は、データ効率と計算可能なVLPのためのデータ混合の可能性を実証的かつ理論的に実証し、実用シナリオにおけるより広範なVLPモデルの採用に寄与する。
関連論文リスト
- DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。
その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:11:05Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。