Fugu-MT 論文翻訳(概要): GenEFT: Understanding Statics and Dynamics of Model Generalization via Effective Theory

論文の概要: GenEFT: Understanding Statics and Dynamics of Model Generalization via Effective Theory

arxiv url: http://arxiv.org/abs/2402.05916v1
Date: Thu, 8 Feb 2024 18:51:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 13:24:30.752868
Title: GenEFT: Understanding Statics and Dynamics of Model Generalization via Effective Theory
Title（参考訳）: GenEFT:有効理論によるモデル一般化の静的とダイナミクスの理解
Authors: David D. Baek, Ziming Liu, Max Tegmark
Abstract要約: ニューラルネットワークの一般化の静的性と動的性に光を遮る効果的な理論フレームワークを提案する。我々はデコーダが弱すぎても強すぎないGoldilocksゾーンの一般化を見出した。次に、潜在空間表現を相互作用粒子(応答)としてモデル化する表現学習のダイナミクスに関する効果的な理論を導入する。
参考スコア（独自算出の注目度）: 16.876961991785507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present GenEFT: an effective theory framework for shedding light on the statics and dynamics of neural network generalization, and illustrate it with graph learning examples. We first investigate the generalization phase transition as data size increases, comparing experimental results with information-theory-based approximations. We find generalization in a Goldilocks zone where the decoder is neither too weak nor too powerful. We then introduce an effective theory for the dynamics of representation learning, where latent-space representations are modeled as interacting particles (repons), and find that it explains our experimentally observed phase transition between generalization and overfitting as encoder and decoder learning rates are scanned. This highlights the power of physics-inspired effective theories for bridging the gap between theoretical predictions and practice in machine learning.
Abstract（参考訳）: 我々は、ニューラルネットワークの一般化の静的性とダイナミクスに光を当てる効果的な理論フレームワークGenEFTを紹介し、それをグラフ学習の例で説明する。まず,データサイズの増加に伴う一般化相転移について検討し,実験結果と情報理論に基づく近似との比較を行った。我々は、デコーダが弱すぎても強すぎるわけでもないgoldilocksゾーンで一般化を見つける。次に, 潜在空間表現を相互作用粒子としてモデル化する表現学習のダイナミクスに関する効果的な理論(応答)を導入し, エンコーダとデコーダ学習率として一般化と過剰フィッティングの位相遷移を実験的に観察した。これは、理論予測と機械学習の実践の間のギャップを埋めるための物理学に着想を得た効果的な理論の力を強調している。

関連論文リスト

Generalization Performance of Hypergraph Neural Networks [21.483543928698676]
我々は、ハイパーグラフニューラルネットワークの4つの代表クラスに対して、マージンに基づく一般化境界を開発する。その結果,ハイパーグラフ構造やスペクトルノルムが一般化境界にどのような影響を及ぼすかが明らかになった。本研究は,実世界のデータセットに対するモデルの性能と理論的境界の関係を実験的に検討した。
論文参考訳（メタデータ） (2025-01-22T00:20:26Z)
An Effective Theory of Bias Amplification [18.648588509429167]
機械学習モデルは、データに存在するバイアスをキャプチャして増幅し、社会的グループ間で異なるテストパフォーマンスをもたらす。本稿では、従来のニューラルネットワークを単純化した状態下でモデル化するリッジ回帰の文脈において、正確な解析理論を提案する。我々の理論は、機械学習バイアスの統一的で厳密な説明を提供し、バイアス増幅やマイノリティグループバイアスのような現象に関する洞察を提供する。
論文参考訳（メタデータ） (2024-10-07T08:43:22Z)
Foundations and Frontiers of Graph Learning Theory [81.39078977407719]
グラフ学習の最近の進歩は、複雑な構造を持つデータを理解し分析する方法に革命をもたらした。グラフニューラルネットワーク(GNN)、すなわちグラフ表現を学習するために設計されたニューラルネットワークアーキテクチャは、一般的なパラダイムとなっている。本稿では,グラフ学習モデルに固有の近似と学習行動に関する理論的基礎とブレークスルーについて概説する。
論文参考訳（メタデータ） (2024-07-03T14:07:41Z)
What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文参考訳（メタデータ） (2024-06-04T05:30:16Z)
Injecting Hamiltonian Architectural Bias into Deep Graph Networks for Long-Range Propagation [55.227976642410766]
グラフ内の情報拡散のダイナミクスは、グラフ表現学習に大きな影響を及ぼす重要なオープン問題である。そこで我々は(ポート-)Hamiltonian Deep Graph Networksを紹介した。我々は,非散逸的長距離伝播と非保守的行動の両方を,単一の理論的・実践的な枠組みで調整する。
論文参考訳（メタデータ） (2024-05-27T13:36:50Z)
Towards Understanding the Generalization of Graph Neural Networks [9.217947432437546]
グラフニューラルネットワーク(GNN)は、グラフ構造化データ指向学習と表現において最も広く採用されているモデルである。まず,帰納学習における一般化ギャップと勾配の確率境界を確立する。理論的な結果は、一般化ギャップに影響を与えるアーキテクチャ固有の要因を明らかにする。
論文参考訳（メタデータ） (2023-05-14T03:05:14Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Beyond spectral gap (extended): The role of the topology in decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。現在の理論では、コラボレーションはトレーニング単独よりも学習率が大きいことを説明していない。本稿では,疎結合分散最適化の正確な図面を描くことを目的とする。
論文参考訳（メタデータ） (2023-01-05T16:53:38Z)
A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文参考訳（メタデータ） (2022-11-27T01:53:29Z)
A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文参考訳（メタデータ） (2021-08-25T02:29:28Z)
Learning While Dissipating Information: Understanding the Generalization Capability of SGLD [9.328633662865682]
勾配ランゲヴィンダイナミクス(SGLD)を解析してアルゴリズム依存の一般化を導出する。分析の結果,学習と情報伝達の複雑なトレードオフが明らかになった。
論文参考訳（メタデータ） (2021-02-05T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。