論文の概要: Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection
- arxiv url: http://arxiv.org/abs/2504.20644v1
- Date: Tue, 29 Apr 2025 11:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.861175
- Title: Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection
- Title(参考訳): ファイル選択によるLCM事前学習データの燃焼次元崩壊
- Authors: Ziqing Fan, Siyuan Du, Shengchao Hu, Pingjie Wang, Li Shen, Ya Zhang, Dacheng Tao, Yanfeng Wang,
- Abstract要約: DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
- 参考スコア(独自算出の注目度): 65.96556073745197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting high-quality pre-training data for large language models (LLMs) is crucial for enhancing their overall performance under limited computation budget, improving both training and sample efficiency. Recent advancements in file selection primarily rely on using an existing or trained proxy model to assess the similarity of samples to a target domain, such as high quality sources BookCorpus and Wikipedia. However, upon revisiting these methods, the domain-similarity selection criteria demonstrates a diversity dilemma, i.e.dimensional collapse in the feature space, improving performance on the domain-related tasks but causing severe degradation on generic performance. To prevent collapse and enhance diversity, we propose a DiverSified File selection algorithm (DiSF), which selects the most decorrelated text files in the feature space. We approach this with a classical greedy algorithm to achieve more uniform eigenvalues in the feature covariance matrix of the selected texts, analyzing its approximation to the optimal solution under a formulation of $\gamma$-weakly submodular optimization problem. Empirically, we establish a benchmark and conduct extensive experiments on the TinyLlama architecture with models from 120M to 1.1B parameters. Evaluating across nine tasks from the Harness framework, DiSF demonstrates a significant improvement on overall performance. Specifically, DiSF saves 98.5% of 590M training files in SlimPajama, outperforming the full-data pre-training within a 50B training budget, and achieving about 1.5x training efficiency and 5x data efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)のための高品質な事前学習データの選択は、限られた計算予算下での全体的な性能の向上、トレーニングとサンプル効率の向上に不可欠である。
ファイル選択の最近の進歩は、主に既存のまたは訓練されたプロキシモデルを使用して、高品質なソースであるBookCorpusやWikipediaなど、ターゲットドメインとの類似性を評価することに依存している。
しかし、これらの手法を再検討すると、ドメイン類似性選択基準は多様性ジレンマ、すなわち特徴空間の次元的崩壊を示し、ドメイン関連タスクのパフォーマンスを向上させるが、ジェネリックパフォーマンスは著しく低下する。
そこで本稿では,DiverSified File selection algorithm (DiSF) を提案する。
古典的なグリーディアルゴリズムを用いて、選択したテキストの特徴共分散行列のより均一な固有値を求め、その近似を$\gamma$-weakly submodular optimization problemの定式化の下で最適解に解析する。
実証的に、我々はベンチマークを確立し、120Mから1.1BパラメータのモデルでTinyLlamaアーキテクチャの広範な実験を行う。
Harnessフレームワークから9つのタスクを評価することで、DiSFは全体的なパフォーマンスを大幅に改善した。
具体的には、DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内で全データの事前トレーニングを上回り、約1.5倍のトレーニング効率と5倍のデータ効率を達成する。
関連論文リスト
- SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework [10.317740844867913]
我々は,SlimPajamaデータセットから,さまざまなデータ構成を用いて,472言語モデルによる事前学習実行をベースとしたシミュレータを構築した。
単純な取得関数でさえ、20Mから1Bまでのトレーニングモデル間で、原則化されたトレーニング決定を可能にすることを観察する。
論文 参考訳(メタデータ) (2025-03-26T22:19:47Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。
DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文 参考訳(メタデータ) (2024-09-11T21:23:23Z) - Landscape-Aware Automated Algorithm Configuration using Multi-output Mixed Regression and Classification [0.01649298969786889]
モデル学習におけるランダム生成関数(RGF)の可能性について検討する。
自動アルゴリズム構成(AAC)に焦点を当てる。
混合回帰および分類タスクの処理における高密度ニューラルネットワーク(NN)モデルの性能解析を行う。
論文 参考訳(メタデータ) (2024-09-02T20:04:41Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。