論文の概要: How Does Preconditioning Guide Feature Learning in Deep Neural Networks?
- arxiv url: http://arxiv.org/abs/2509.25637v1
- Date: Tue, 30 Sep 2025 01:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.972578
- Title: How Does Preconditioning Guide Feature Learning in Deep Neural Networks?
- Title(参考訳): ディープニューラルネットワークにおけるプリコンディショニングガイドの特徴学習
- Authors: Kotaro Yoshida, Atsushi Nitanda,
- Abstract要約: 本研究では,プレコンディショニングが特徴学習と一般化性能に与える影響について検討する。
モデルに利用可能な入力情報は、プレコンディショナーの計量によって定義されるグラム行列を通してのみ伝達されることを示す。
その結果,学習した特徴表現は,プレコンディショナーが導入したスペクトルバイアスを密接に反映していることがわかった。
- 参考スコア(独自算出の注目度): 11.640908227380484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preconditioning is widely used in machine learning to accelerate convergence on the empirical risk, yet its role on the expected risk remains underexplored. In this work, we investigate how preconditioning affects feature learning and generalization performance. We first show that the input information available to the model is conveyed solely through the Gram matrix defined by the preconditioner's metric, thereby inducing a controllable spectral bias on feature learning. Concretely, instantiating the preconditioner as the $p$-th power of the input covariance matrix and within a single-index teacher model, we prove that in generalization, the exponent $p$ and the alignment between the teacher and the input spectrum are crucial factors. We further investigate how the interplay between these factors influences feature learning from three complementary perspectives: (i) Robustness to noise, (ii) Out-of-distribution generalization, and (iii) Forward knowledge transfer. Our results indicate that the learned feature representations closely mirror the spectral bias introduced by the preconditioner -- favoring components that are emphasized and exhibiting reduced sensitivity to those that are suppressed. Crucially, we demonstrate that generalization is significantly enhanced when this spectral bias is aligned with that of the teacher.
- Abstract(参考訳): プレコンディショニングは、経験的リスクの収束を加速するために機械学習で広く使用されているが、期待されるリスクに対するその役割は未解明のままである。
本研究では,プレコンディショニングが特徴学習と一般化性能に与える影響について検討する。
まず,プレコンディショナのメトリックによって定義されたグラム行列を通じてモデルに利用可能な入力情報がのみ伝達されることを示し,特徴学習における制御可能なスペクトルバイアスを誘導する。
具体的には、プリコンディショナーを入力共分散行列の$p$-番目のパワーとしてインスタンス化し、単一インデックスの教師モデル内では、指数$p$と教師と入力スペクトルのアライメントが重要な要素であることが証明される。
さらに、これらの要因間の相互作用が3つの相補的な視点から特徴学習にどう影響するかを考察する。
(i)騒音に対する頑丈さ
(二)アウト・オブ・ディストリビューションの一般化及び
三 フォワード・ナレッジ・トランスファー
以上の結果から,学習した特徴表現は,プレコンディショナーが導入したスペクトルバイアスを密接に反映していることが明らかとなった。
重要なことは、このスペクトルバイアスが教師のそれと一致している場合、一般化が著しく向上することが示される。
関連論文リスト
- Relational inductive biases on attention mechanisms [1.1545092788508224]
我々は、注意機構に存在する関係バイアスの特徴付けに重点を置いている。
異なる注意層は、入力データに仮定する基礎となる関係によって特徴づけられることを示す。
論文 参考訳(メタデータ) (2025-07-05T17:46:52Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Integrating Prior Knowledge in Contrastive Learning with Kernel [4.050766659420731]
我々は、カーネル理論を用いて、(i)事前知識の統合を可能にし、(i)元のInfoNCE損失における負の正の結合を取り除くという、分離均一性(decoupled uniformity)と呼ばれる新しい損失を提案する。
教師なしの環境では、CLは自然画像と医用画像の両方で表現を改善するために生成モデルから恩恵を受けることを実証的に実証する。
論文 参考訳(メタデータ) (2022-06-03T15:43:08Z) - Distinguishing rule- and exemplar-based generalization in learning
systems [10.396761067379195]
特徴レベルバイアスと例え-vs-ルールバイアスの2つの異なる帰納バイアスについて検討した。
ほとんどの標準ニューラルネットワークモデルは、模範に基づく外挿に対する正当性を持っている。
データ拡張、公平性、体系的一般化に関する研究において、これらの発見がもたらす意味について論じる。
論文 参考訳(メタデータ) (2021-10-08T18:37:59Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。