論文の概要: Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles
- arxiv url: http://arxiv.org/abs/2512.02409v1
- Date: Tue, 02 Dec 2025 04:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.72249
- Title: Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles
- Title(参考訳): スペクトルダイナミクスのレンズによるデータキュレーション:静的限界、動的加速、実践的なオラクル
- Authors: Yizhou Zhang, Lun Du,
- Abstract要約: 大規模ニューラルモデルは、データプルーニング、合成データ生成、クロスモデル蒸留、人間からの強化学習(RLHF)、難易度に基づくサンプリングなど、ますます訓練されている。
我々は,データキュレーションをサンプリング分布の再重み付けとして定式化し,その効果をデータ誘導演算子の固有構造にマッピングする。
- 参考スコア(独自算出の注目度): 16.678827833121602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale neural models are increasingly trained with data pruning, synthetic data generation, cross-model distillation, reinforcement learning from human feedback (RLHF), and difficulty-based sampling. While several of these data-centric strategies reliably improve training efficiency and downstream performance, others fail to provide meaningful gains -- most notably self-generated synthetic data, which often increases dataset volume without enhancing model capability. We formalize data curation as reweighting the sampling distribution and map its effect onto the eigenstructure of the data-induced operator. Our first main result shows that \textbf{static pruning induces a bounded operator and therefore cannot change the spectral tail exponent}; it provides at most finite-region improvements and cannot alter asymptotic neural scaling. Our second result analyzes \textbf{time-dependent data curation}, showing that an ideal oracle capable of tracking spectral residuals and continuously re-normalizing the tail can provably accelerate learning -- although practical systems can only approximate this behavior.
- Abstract(参考訳): 大規模ニューラルモデルは、データプルーニング、合成データ生成、クロスモデル蒸留、人間からの強化学習(RLHF)、難易度に基づくサンプリングなど、ますます訓練されている。
これらのデータ中心の戦略のいくつかは、トレーニング効率とダウンストリームのパフォーマンスを確実に向上させる一方で、意味のある利益をもたらすものもあります。
我々は,データキュレーションをサンプリング分布の再重み付けとして定式化し,その効果をデータ誘導演算子の固有構造にマッピングする。
第一報は, 有界作用素を誘導し, スペクトルテール指数を変化させることができないことを示し, 極端に有限領域の改善が得られ, 漸近的ニューラルスケーリングを変化させることができない。
第2の結果は、textbf{time-dependent data curation}を分析し、スペクトル残差を追跡でき、尾部を継続的に再正規化できる理想的なオラクルが、学習を確実に加速できることを示した。
関連論文リスト
- Data coarse graining can improve model performance [7.325551965751601]
データの粗粒化」下における高次元リッジ正規化線形回帰の可解モデルを用いたパラドックスの研究
統計物理学における正規化群に着想を得て,学習課題との関連性に基づいて,特徴を体系的に捨てる粗粒化スキームを解析した。
この結果は,データの構造によって形成される複雑で非単調なリスクランドスケープに注目し,統計物理学からのアイデアが,現代の機械学習現象を理解するための原理化されたレンズをいかに提供するかを説明する。
論文 参考訳(メタデータ) (2025-09-18T00:17:01Z) - Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - Lost in Retraining: Roaming the Parameter Space of Exponential Families Under Closed-Loop Learning [0.0]
指数族に属するモデルに対する閉ループ学習について検討する。
パラメータの最大確率は、マーチンゲール特性に十分な統計量を与えることを示す。
この結果が,地上の真理モデルから生成された少なくとも1つのデータポイントを含む場合,この結果が防止されることが示唆された。
論文 参考訳(メタデータ) (2025-06-25T17:12:22Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Enhancing Activity Recognition After Stroke: Generative Adversarial Networks for Kinematic Data Augmentation [0.0]
脳卒中リハビリテーションにおけるウェアラブルモニタリングのための機械学習モデルの一般化可能性はしばしば、利用可能なデータの限られたスケールと不均一性によって制限される。
データ拡張は、トレーニングセットに表される変動性を強化するために、実際のデータに計算的に導出されたデータを追加することで、この課題に対処する。
本研究では、CGAN(Conditional Generative Adversarial Networks)を用いて、公開データセットから合成キネマティックデータを生成する。
合成データと実験データの両方でディープラーニングモデルを訓練することにより、タスク分類精度を向上させる:実データのみを訓練したモデルでは66.1%よりもはるかに高い80.0%の精度で合成データを組み込んだモデル。
論文 参考訳(メタデータ) (2024-06-12T15:51:00Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。