Fugu-MT 論文翻訳(概要): TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training

論文の概要: TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training

arxiv url: http://arxiv.org/abs/2312.08846v4
Date: Sat, 24 Feb 2024 03:30:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:47:30.577815
Title: TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training
Title（参考訳）: TiMix:効果的なビジョンランゲージ事前学習のためのテキスト対応画像ミキシング
Authors: Chaoya Jiang, Wei ye, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Shikun Zhang
Abstract要約: クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。 TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
参考スコア（独自算出の注目度）: 42.142924806184425
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Self-supervised Multi-modal Contrastive Learning (SMCL) remarkably advances modern Vision-Language Pre-training (VLP) models by aligning visual and linguistic modalities. Due to noises in web-harvested text-image pairs, however, scaling up training data volume in SMCL presents considerable obstacles in terms of computational cost and data inefficiency. To improve data efficiency in VLP, we propose Text-aware Image Mixing (TiMix), which integrates mix-based data augmentation techniques into SMCL, yielding significant performance improvements without significantly increasing computational overhead. We provide a theoretical analysis of TiMixfrom a mutual information (MI) perspective, showing that mixed data samples for cross-modal contrastive learning implicitly serve as a regularizer for the contrastive loss. The experimental results demonstrate that TiMix exhibits a comparable performance on downstream tasks, even with a reduced amount of training data and shorter training time, when benchmarked against existing methods. This work empirically and theoretically demonstrates the potential of data mixing for data-efficient and computationally viable VLP, benefiting broader VLP model adoption in practical scenarios.
Abstract（参考訳）: 自己教師型マルチモーダル・コントラシティブ・ラーニング(SMCL)は、視覚的・言語的モダリティを整合させることにより、現代のビジョンランゲージ・プレトレーニング(VLP)モデルを大幅に進歩させる。しかし、ウェブハーベストテキストイメージペアのノイズのため、SMCLにおけるトレーニングデータボリュームのスケールアップは、計算コストとデータ非効率の点でかなりの障害となる。本稿では,vlpにおけるデータ効率を向上させるために,ミックスベースデータ拡張技術をsmclに統合したテキスト認識画像混合(timix)を提案する。本稿では,相互情報(MI)の観点からTiMixの理論的解析を行い,相互学習のための混合データサンプルが,対照損失の正則化として暗黙的に機能していることを示す。実験の結果,timoxは既存の手法に対してベンチマークを行った場合,トレーニングデータの量が少なく,トレーニング時間が短い場合でも,下流タスクで同等のパフォーマンスを示すことがわかった。この研究は、データ効率と計算可能なVLPのためのデータ混合の可能性を実証的かつ理論的に実証し、実用シナリオにおけるより広範なVLPモデルの採用に寄与する。

関連論文リスト

TREX: Tokenizer Regression for Optimal Data Mixture [10.917621429052183]
Tokenizer Regression for Optimal Data MiXture (TREX)は、トークン処理者のトレーニングに最適なデータ混合物を効率的に予測する回帰ベースのフレームワークである。 TREXは、ランダムな混合物上で小規模なプロキシトークンを訓練し、圧縮統計を収集し、データ混合物から圧縮性能を予測する。 TReXの予測混合物は、LLaMA3と均一分布に基づいて混合物を最大12%圧縮する。
論文参考訳（メタデータ） (2026-01-20T04:41:09Z)
Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。 1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-03-24T16:41:23Z)
Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文参考訳（メタデータ） (2025-03-06T16:04:01Z)
Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training [10.769503491579666]
マルチステージプロセスで生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。我々は、トピックによって混合されたデータに基づいて事前訓練された言語モデルは、ソースによって混合されたデータで訓練された言語よりも一貫して優れていることを示した。理論的解析により,トピックベースのデータは,ソースベースのアプローチに比べて検証損失が著しく低いことがわかった。
論文参考訳（メタデータ） (2025-02-24T03:25:56Z)
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文参考訳（メタデータ） (2025-02-01T01:52:32Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe [30.03925858123481]
従来のNTPパラダイムを超えて,命令チューニング性能を高める新しいレシピであるSFTMixを提案する。トレーニング力学に基づいて、異なる信頼度を持つ例は、指導訓練過程において異なる役割を演じるべきであると論じる。このアプローチにより、SFTMixは、幅広いインストラクションフォローとヘルスケアドメイン固有のSFTタスクにおいて、NTPを大幅に上回ることができる。
論文参考訳（メタデータ） (2024-10-07T17:52:21Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
BiMix: Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。 $textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文参考訳（メタデータ） (2024-05-23T09:44:02Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
Understanding Multimodal Contrastive Learning and Incorporating Unpaired Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。 MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文参考訳（メタデータ） (2023-02-13T10:11:05Z)
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。 CMCは自然文をテキストビューからマルチモーダルビューに変換する。クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文参考訳（メタデータ） (2022-06-17T17:56:47Z)
Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。本稿では,自然言語処理タスクにmixupを適用する方法について検討する。我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文参考訳（メタデータ） (2020-10-05T23:37:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。