論文の概要: Improving Continual Pre-training Through Seamless Data Packing
- arxiv url: http://arxiv.org/abs/2505.22018v2
- Date: Thu, 29 May 2025 07:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.783585
- Title: Improving Continual Pre-training Through Seamless Data Packing
- Title(参考訳): シームレスデータパッケージングによる継続的な事前トレーニングの改善
- Authors: Ruicheng Yin, Xuan Gao, Changze Lv, Xiaohua Wang, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 本稿では,文脈情報をより効果的に保存し,モデル性能を向上させることを目的とした新しいデータパッキング戦略を提案する。
提案手法では,第1段階において連続列間の重なり合うトークンを同期するスライディングウインドウ手法を用いる。
第2段階では、短いテキストをターゲットのシーケンス長よりもわずかに大きいビンに詰め込むために、第1のFit-Decreasingアルゴリズムを採用し、パディングとトランケーションを最小化する。
- 参考スコア(独自算出の注目度): 34.13195340154738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual pre-training has demonstrated significant potential in enhancing model performance, particularly in domain-specific scenarios. The most common approach for packing data before continual pre-training involves concatenating input texts and splitting them into fixed-length sequences. While straightforward and efficient, this method often leads to excessive truncation and context discontinuity, which can hinder model performance. To address these issues, we explore the potential of data engineering to enhance continual pre-training, particularly its impact on model performance and efficiency. We propose Seamless Packing (SP), a novel data packing strategy aimed at preserving contextual information more effectively and enhancing model performance. Our approach employs a sliding window technique in the first stage that synchronizes overlapping tokens across consecutive sequences, ensuring better continuity and contextual coherence. In the second stage, we adopt a First-Fit-Decreasing algorithm to pack shorter texts into bins slightly larger than the target sequence length, thereby minimizing padding and truncation. Empirical evaluations across various model architectures and corpus domains demonstrate the effectiveness of our method, outperforming baseline method in 99% of all settings. Code is available at https://github.com/Infernus-WIND/Seamless-Packing.
- Abstract(参考訳): 継続的な事前トレーニングは、特にドメイン固有のシナリオにおいて、モデルパフォーマンスを向上させる大きな可能性を示している。
連続的な事前学習の前にデータをパックする最も一般的なアプローチは、入力テキストを連結し、それらを固定長のシーケンスに分割することである。
単純で効率的な手法であるが、しばしば過剰な切り抜きや文脈の不連続を招き、モデルの性能を損なう。
これらの課題に対処するために、連続的な事前トレーニングを強化するデータエンジニアリングの可能性、特にモデルの性能と効率への影響について検討する。
本研究では,文脈情報をより効率的に保存し,モデル性能を向上させることを目的とした新しいデータパッキング戦略であるSeamless Packing (SP)を提案する。
提案手法は第1段階において,逐次的に重なり合うトークンを同期させ,連続性とコンテキストコヒーレンスを向上するスライディングウインドウ手法を用いている。
第2段階では、短いテキストをターゲットのシーケンス長よりもわずかに大きいビンに詰め込むために、第1のFit-Decreasingアルゴリズムを採用し、パディングとトランケーションを最小化する。
各種モデルアーキテクチャおよびコーパス領域の実証評価により,提案手法の有効性を実証し,ベースライン法を全設定の99%で上回る結果を得た。
コードはhttps://github.com/Infernus-WIND/Seamless-Packing.comで入手できる。
関連論文リスト
- SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency [10.555957282859]
本稿では,新しい動的ブートストラップ・データセット・プルーニング手法を提案する。
データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。
大規模画像テキストペアデータセットの7つのCLIPモデルと,ImageNetデータセットの2つのMoCoモデルを個別に事前トレーニングし,合計16の事前トレーニングモデルを得た。
論文 参考訳(メタデータ) (2024-11-14T01:53:17Z) - Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - TSO: Curriculum Generation using continuous optimization [0.0]
連続最適化に基づく簡便かつ効率的な手法を提案する。
エンコーダネットワークは、トレーニングシーケンスを連続空間にマップ/組込みする。
予測ネットワークは、戦略の連続表現を入力として使用し、固定ネットワークアーキテクチャの精度を予測する。
論文 参考訳(メタデータ) (2021-06-16T06:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。