Fugu-MT 論文翻訳(概要): Accelerating Vision-Language Pretraining with Free Language Modeling

論文の概要: Accelerating Vision-Language Pretraining with Free Language Modeling

arxiv url: http://arxiv.org/abs/2303.14038v1
Date: Fri, 24 Mar 2023 14:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 14:10:02.240335
Title: Accelerating Vision-Language Pretraining with Free Language Modeling
Title（参考訳）: 自由言語モデルによる視覚言語事前学習の高速化
Authors: Teng Wang, Yixiao Ge, Feng Zheng, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo
Abstract要約: 自由言語モデリング(FLM)は、任意の汚職率で100%予測レートを実現する。 FLMは、汚職率との整合性から予測率を解放する。実験の結果、FLMは2.5倍の事前訓練時間短縮を達成できた。
参考スコア（独自算出の注目度）: 62.30042851111692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The state of the arts in vision-language pretraining (VLP) achieves exemplary performance but suffers from high training costs resulting from slow convergence and long training time, especially on large-scale web datasets. An essential obstacle to training efficiency lies in the entangled prediction rate (percentage of tokens for reconstruction) and corruption rate (percentage of corrupted tokens) in masked language modeling (MLM), that is, a proper corruption rate is achieved at the cost of a large portion of output tokens being excluded from prediction loss. To accelerate the convergence of VLP, we propose a new pretraining task, namely, free language modeling (FLM), that enables a 100% prediction rate with arbitrary corruption rates. FLM successfully frees the prediction rate from the tie-up with the corruption rate while allowing the corruption spans to be customized for each token to be predicted. FLM-trained models are encouraged to learn better and faster given the same GPU time by exploiting bidirectional contexts more flexibly. Extensive experiments show FLM could achieve an impressive 2.5x pretraining time reduction in comparison to the MLM-based methods, while keeping competitive performance on both vision-language understanding and generation tasks. Code will be public at https://github.com/TencentARC/FLM.
Abstract（参考訳）: state of the arts in vision-language pretraining (vlp)は模範的なパフォーマンスを達成しているが、特に大規模webデータセットでは、収束が遅く、トレーニング時間が長いことによる高いトレーニングコストに苦しむ。トレーニング効率にとって重要な障害は、マスク言語モデリング(MLM)における絡み合った予測率(復元トークンの割合)と腐敗率(劣化トークンの割合)であり、予測損失から除外された出力トークンの大部分のコストで適切な腐敗率を達成することである。本稿では,vlpの収束を早めるために,自由言語モデリング(flm)という新たな事前学習タスクを提案する。 flmは、腐敗率との結び付きから予測レートを解放し、各トークンを予測できるように腐敗スパンをカスタマイズすることに成功した。 FLMでトレーニングされたモデルは、双方向のコンテキストをより柔軟に活用することで、同じGPU時間からより良く、より速く学習することができる。広汎な実験により、FLMはMLMベースの手法と比較して2.5倍の事前学習時間短縮を実現し、視覚言語理解と生成の両タスクにおける競合性能を維持した。コードはhttps://github.com/TencentARC/FLM.comで公開される。

関連論文リスト

ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs [1.1834200163382398]
ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。 MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
論文参考訳（メタデータ） (2025-07-29T01:07:09Z)
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。 Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。 GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳（メタデータ） (2025-05-26T12:23:26Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文参考訳（メタデータ） (2023-10-12T22:44:19Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
Bridging the Gap between Language Models and Cross-Lingual Sequence Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文参考訳（メタデータ） (2022-04-11T15:55:20Z)
From Good to Best: Two-Stage Training for Cross-lingual Machine Reading Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文参考訳（メタデータ） (2021-12-09T07:31:15Z)
Adversarial Training with Contrastive Learning in NLP [0.0]
本稿では,言語処理タスクを逆学習するために,比較学習(ATCL)を用いた逆学習を提案する。中心となる考え方は、高速勾配法(FGM)によって入力の埋め込み空間に線形摂動を生じさせ、元の表現と摂動表現を対照的な学習によって密に保つようモデルを訓練することである。この結果から, 定量的(複雑度, BLEU) のスコアは, ベースラインに比べて向上しただけでなく, 両タスクのセマンティックレベルにおいても, 質的な結果が得られた。
論文参考訳（メタデータ） (2021-09-19T07:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。