論文の概要: Bucket Pre-training is All You Need
- arxiv url: http://arxiv.org/abs/2407.07495v1
- Date: Wed, 10 Jul 2024 09:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:11:48.814882
- Title: Bucket Pre-training is All You Need
- Title(参考訳): Bucketの事前トレーニングは必要なだけ
- Authors: Hongtao Liu, Qiyao Peng, Qing Yang, Kai Liu, Hongyan Xu,
- Abstract要約: 大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。
固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
- 参考スコア(独自算出の注目度): 9.332544709626875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance across various natural language processing tasks. However, the conventional fixed-length data composition strategy for pretraining, which involves concatenating and splitting documents, can introduce noise and limit the model's ability to capture long-range dependencies. To address this, we first introduce three metrics for evaluating data composition quality: padding ratio, truncation ratio, and concatenation ratio. We further propose a multi-bucket data composition method that moves beyond the fixed-length paradigm, offering a more flexible and efficient approach to pretraining. Extensive experiments demonstrate that our proposed method could significantly improving both the efficiency and efficacy of LLMs pretraining. Our approach not only reduces noise and preserves context but also accelerates training, making it a promising solution for LLMs pretraining.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
しかし、文書の連結と分割を伴って事前学習を行う従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限することができる。
そこで本研究では,まず,データ合成品質を評価するための3つの指標について紹介する。
さらに、固定長のパラダイムを超えて、より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
大規模実験により, 提案手法は, LLMの事前学習の効率と有効性の両方を著しく向上させることができることが示された。
我々のアプローチは騒音を低減し、文脈を保存するだけでなく、訓練を加速し、LLMの事前学習に有望な解決策となる。
関連論文リスト
- Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - A Compact Pretraining Approach for Neural Language Models [21.767174489837828]
事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。
抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。
我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
論文 参考訳(メタデータ) (2022-08-25T22:43:47Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。