Fugu-MT 論文翻訳(概要): SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

論文の概要: SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

arxiv url: http://arxiv.org/abs/2401.13160v1
Date: Wed, 24 Jan 2024 00:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 15:54:43.772820
Title: SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection
Title（参考訳）: SpacTor-T5: Span Corruption と Replaced Token Detection を備えた事前学習型T5モデル
Authors: Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-Fran\c{c}ois Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar
Abstract要約: SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
参考スコア（独自算出の注目度）: 49.43407207482008
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-training large language models is known to be extremely resource intensive and often times inefficient, under-utilizing the information encapsulated in the training text sequences. In this paper, we present SpacTor, a new training procedure consisting of (1) a hybrid objective combining span corruption (SC) and token replacement detection (RTD), and (2) a two-stage curriculum that optimizes the hybrid objective over the initial $\tau$ iterations, then transitions to standard SC loss. We show empirically that the effectiveness of the hybrid objective is tied to the two-stage pre-training schedule, and provide extensive analysis on why this is the case. In our experiments with encoder-decoder architectures (T5) on a variety of NLP tasks, SpacTor-T5 yields the same downstream performance as standard SC pre-training, while enabling a 50% reduction in pre-training iterations and 40% reduction in total FLOPs. Alternatively, given the same amount of computing budget, we find that SpacTor results in significantly improved downstream benchmark performance.
Abstract（参考訳）: 事前学習された大きな言語モデルは、非常にリソース集約的で、しばしば非効率で、訓練されたテキストシーケンスにカプセル化された情報を過小評価することが知られている。本稿では,(1)スパン腐敗(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標と,(2)初期$\tau$の反復に対してハイブリッド目標を最適化し,標準のSC損失に遷移する2段階のカリキュラムからなる,新しいトレーニング手順であるSpacTorを提案する。本研究は,ハイブリッド目標の有効性が2段階事前学習スケジュールに結びついていることを実証的に示し,その理由を詳細に分析した。各種NLPタスクのエンコーダデコーダアーキテクチャ(T5)を用いた実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能を示し、事前トレーニングの50%削減と全FLOPの40%削減を実現した。あるいは、同じ計算予算を考えると、spactorによってダウンストリームベンチマークのパフォーマンスが大幅に向上することがわかった。

関連論文リスト

LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文参考訳（メタデータ） (2025-05-12T10:57:51Z)
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文参考訳（メタデータ） (2025-01-12T15:21:22Z)
Accelerating Augmentation Invariance Pretraining [7.772780341646099]
我々は、特に視覚変換器(ViT)の事前学習において、対照的な学習手法の計算課題に取り組む。様々なシーケンス長の入力をまたいで一般化するViTのユニークな能力を生かしたアクセラレーションフレームワークを提案する。本手法では,ランダム化トークンドロップアウトやフレキシブルパッチスケーリングなどのシーケンス圧縮戦略を併用することにより,勾配推定のコストを低減し,収束を加速する。
論文参考訳（メタデータ） (2024-10-27T21:53:33Z)
Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。 GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文参考訳（メタデータ） (2024-08-21T16:13:16Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)
Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training [70.2914594796002]
ラベル割り当て基準と回帰損失関数の形状を調整するための動的R-CNNを提案する。我々はResNet-50-FPNベースラインを1.9%のAPと5.5%のAP$_90$で改善し、余分なオーバーヘッドを伴わない。
論文参考訳（メタデータ） (2020-04-13T15:20:25Z)
Gradual Channel Pruning while Training using Feature Relevance Scores for Convolutional Neural Networks [6.534515590778012]
プルーニングは、ディープネットワーク圧縮に使用される主要なアプローチの1つである。そこで本研究では,新しいデータ駆動計測法を用いて,学習手法を訓練しながら,簡便な効率の段階的なチャネルプルーニングを提案する。本稿では,VGGやResNetなどのアーキテクチャにおける提案手法の有効性を示す。
論文参考訳（メタデータ） (2020-02-23T17:56:18Z)
Fast is better than free: Revisiting adversarial training [86.11788847990783]
より弱く安価な敵を用いて、経験的に堅牢なモデルを訓練することが可能であることを示す。我々は,FGSM逆行訓練を失敗に導く「破滅的オーバーフィッティング(catastrophic overfitting)」と呼ばれる障害モードを特定した。
論文参考訳（メタデータ） (2020-01-12T20:30:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。