論文の概要: Data coarse graining can improve model performance
- arxiv url: http://arxiv.org/abs/2509.14498v1
- Date: Thu, 18 Sep 2025 00:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.006735
- Title: Data coarse graining can improve model performance
- Title(参考訳): データ粗粒化はモデル性能を向上させる
- Authors: Alex Nguyen, David J. Schwab, Vudtiwat Ngampruetikorn,
- Abstract要約: データの粗粒化」下における高次元リッジ正規化線形回帰の可解モデルを用いたパラドックスの研究
統計物理学における正規化群に着想を得て,学習課題との関連性に基づいて,特徴を体系的に捨てる粗粒化スキームを解析した。
この結果は,データの構造によって形成される複雑で非単調なリスクランドスケープに注目し,統計物理学からのアイデアが,現代の機械学習現象を理解するための原理化されたレンズをいかに提供するかを説明する。
- 参考スコア(独自算出の注目度): 7.325551965751601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lossy data transformations by definition lose information. Yet, in modern machine learning, methods like data pruning and lossy data augmentation can help improve generalization performance. We study this paradox using a solvable model of high-dimensional, ridge-regularized linear regression under 'data coarse graining.' Inspired by the renormalization group in statistical physics, we analyze coarse-graining schemes that systematically discard features based on their relevance to the learning task. Our results reveal a nonmonotonic dependence of the prediction risk on the degree of coarse graining. A 'high-pass' scheme--which filters out less relevant, lower-signal features--can help models generalize better. By contrast, a 'low-pass' scheme that integrates out more relevant, higher-signal features is purely detrimental. Crucially, using optimal regularization, we demonstrate that this nonmonotonicity is a distinct effect of data coarse graining and not an artifact of double descent. Our framework offers a clear, analytical explanation for why careful data augmentation works: it strips away less relevant degrees of freedom and isolates more predictive signals. Our results highlight a complex, nonmonotonic risk landscape shaped by the structure of the data, and illustrate how ideas from statistical physics provide a principled lens for understanding modern machine learning phenomena.
- Abstract(参考訳): 定義によるロッキーなデータ変換は情報を失う。
しかし、現代の機械学習では、データプルーニングやデータ拡張の損失といった手法は、一般化のパフォーマンスを向上させるのに役立ちます。
我々はこのパラドックスを「粗粒化データ」の下で高次元のリッジ規則化線形回帰の可解モデルを用いて検討した。
統計物理学における正規化群に着想を得て,学習課題との関連性に基づいて,特徴を体系的に捨てる粗粒化スキームを解析した。
その結果, 粗粒度に対する予測リスクの非単調な依存性が明らかとなった。
関連性の低い低信号特徴をフィルタリングする「ハイパス」スキームは、モデルをより一般化するのに役立ちます。
対照的に、より関連性の高い高信号の特徴を統合する「低パス」スキームは、純粋に有害である。
重要なことに、最適な正則化を用いて、この非単調性はデータ粗粒化の明確な効果であり、二重降下の人工物ではないことを実証する。
私たちのフレームワークは、注意深いデータ拡張がなぜ機能するのかを明確かつ分析的に説明しています。
この結果は,データの構造によって形成される複雑で非単調なリスクランドスケープに注目し,統計物理学からのアイデアが,現代の機械学習現象を理解するための原理化されたレンズをいかに提供するかを説明する。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Marginal Causal Flows for Validation and Inference [3.547529079746247]
複雑なデータから得られる結果に対する介入の限界因果効果を調べることは依然として困難である。
Frugal Flowsは、正規化フローを使用してデータ生成過程を柔軟に学習する新しい確率ベース機械学習モデルである。
シミュレーションと実世界の両方のデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-11-02T16:04:57Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Hessian-Free Online Certified Unlearning [8.875278412741695]
ほぼ瞬時にデータを除去するオンライン・アンラーニングアルゴリズムを開発した。
提案手法は,非学習および一般化保証の観点から,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Information bottleneck theory of high-dimensional regression: relevancy,
efficiency and optimality [6.700873164609009]
オーバーフィッティングは機械学習における中心的な課題であるが、多くの大きなニューラルネットワークは容易にトレーニング損失をゼロにする。
トレーニングデータのノイズを符号化する適合モデルのビットとして定義される残差情報による過度適合の定量化を行う。
論文 参考訳(メタデータ) (2022-08-08T00:09:12Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - Harmless interpolation in regression and classification with structured
features [21.064512161584872]
過度にパラメータ化されたニューラルネットワークは、ノイズの多いトレーニングデータに完全に適合するが、テストデータではうまく一般化する。
再生カーネルヒルベルト空間における上界回帰と分類リスクの一般かつ柔軟な枠組みを提案する。
論文 参考訳(メタデータ) (2021-11-09T15:12:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。