論文の概要: Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime
- arxiv url: http://arxiv.org/abs/2506.24120v1
- Date: Mon, 30 Jun 2025 17:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.191043
- Title: Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime
- Title(参考訳): データ均一性によるトレーニング効率の向上,NTKレジームを越えたコンバージェンスフレームワーク
- Authors: Yuqing Wang, Shangding Gu,
- Abstract要約: より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。
具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。
理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
- 参考スコア(独自算出の注目度): 9.749891245059596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data selection plays a crucial role in data-driven decision-making, including in large language models (LLMs), and is typically task-dependent. Properties such as data quality and diversity have been extensively studied and are known to enhance model performance. However, it remains unclear whether there exist other quantitative and general principles of data selection that can consistently improve performance, especially for complex tasks with limited prior knowledge. In this paper, we demonstrate that selecting more uniformly distributed data can improve training efficiency while enhancing performance. Specifically, we establish that more uniform (less biased) distribution leads to a larger minimum pairwise distance between data points, denoted by $h_{\min}$, and prove that a smaller $h_{\min}$ can slow down the training dynamics of gradient descent (GD). Moreover, we theoretically show that the approximation error of neural networks decreases as $h_{\min}$ increases. Our analysis introduces a convergence framework for GD beyond the Neural Tangent Kernel (NTK) regime, applicable to a broad class of architectures, including transformers, without requiring Lipschitz smoothness. This framework further provides theoretical justification for the use of residual connections and function compositions in deep neural architectures. In the end, we conduct comprehensive experiments for supervised fine-tuning across various settings, including different optimization strategies, model sizes, and training datasets. The results consistently demonstrate that selecting data by maximizing pairwise distance significantly accelerates training and achieves comparable or better performance in LLMs across diverse datasets. Code and Datasets are available at the link: https://github.com/SafeRL-Lab/data-uniformity.
- Abstract(参考訳): データ選択は、大規模言語モデル(LLM)を含む、データ駆動意思決定において重要な役割を果たす。
データ品質や多様性といった特性は広く研究されており、モデルの性能を高めることが知られている。
しかし、特に事前知識が限られている複雑なタスクにおいて、パフォーマンスを継続的に改善できる他の量的および一般的なデータ選択原理が存在するかどうかは不明だ。
本稿では,より均一に分散したデータを選択することで,学習効率を向上し,性能を向上させることを実証する。
具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を$h_{\min}$と表現し、より小さな$h_{\min}$が勾配降下(GD)のトレーニングダイナミクスを遅くすることができることを示す。
さらに、ニューラルネットワークの近似誤差は、$h_{\min}$が増加するにつれて減少することを示す。
我々の分析では、リプシッツの滑らかさを必要とせず、トランスフォーマーを含む幅広い種類のアーキテクチャに適用可能な、ニューラル・タンジェント・カーネル(NTK)体制を超えたGDの収束フレームワークを導入している。
このフレームワークはさらに、ディープ・ニューラル・アーキテクチャーにおける残差接続と関数合成の使用を理論的に正当化する。
最終的には、さまざまな最適化戦略、モデルサイズ、トレーニングデータセットなど、さまざまな設定における教師付き微調整のための包括的な実験を実施します。
その結果、ペアワイズ距離を最大化してデータを選択することは、トレーニングを著しく加速し、多様なデータセットにまたがるLLMの同等またはより良いパフォーマンスを達成することを示した。
コードとデータセットは、https://github.com/SafeRL-Lab/data-uniformity.comリンクで入手できる。
関連論文リスト
- RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - Multiscale Training of Convolutional Neural Networks [6.805997961535213]
高解像度画像上での畳み込みニューラルネットワーク(CNN)のトレーニングは、最も優れたメッシュ上の損失の勾配を評価するコストによってボトルネックとなることが多い。
本稿では,モンテカルロにインスパイアされたマルチレベル・マルチスケール・グラディエント推定法 (MGE) を提案する。
さらに、粗いメッシュの学習問題を最初に解き、次の細かいレベルを“ホットスタート”し、必要な微細メッシュを桁違いに削減するフルマルチスケールトレーニングアルゴリズムにMGEを組み込む。
論文 参考訳(メタデータ) (2025-01-22T09:13:47Z) - A Multi-Fidelity Graph U-Net Model for Accelerated Physics Simulations [1.2430809884830318]
本稿では,GNNモデルの性能向上のための多元性手法の利点を生かした,新しいGNNアーキテクチャであるMulti-Fidelity U-Netを提案する。
提案手法は精度とデータ要求において有意に優れた性能を示すことを示す。
また,提案アーキテクチャの高速バージョンであるMulti-Fidelity U-Net Liteを35%高速化し,精度を2~5%削減した。
論文 参考訳(メタデータ) (2024-12-19T20:09:38Z) - GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。
このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。
グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文 参考訳(メタデータ) (2024-12-11T11:13:43Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。