Fugu-MT 論文翻訳(概要): Initial Guessing Bias: How Untrained Networks Favor Some Classes

論文の概要: Initial Guessing Bias: How Untrained Networks Favor Some Classes

arxiv url: http://arxiv.org/abs/2306.00809v2
Date: Wed, 1 Nov 2023 16:17:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 17:43:51.815504
Title: Initial Guessing Bias: How Untrained Networks Favor Some Classes
Title（参考訳）: 最初の推測バイアス:未訓練のネットワークがクラスをいかに好んでいるか
Authors: Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi
Abstract要約: ニューラルネットワークの構造は、トレーニング開始前であっても、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す。 IGB(Initial Guessing Bias)と呼ばれるこの現象の存在は、アクティベーション関数、最大プール層、ネットワーク深さといったアーキテクチャ上の選択に依存する。
参考スコア（独自算出の注目度）: 0.10231119246773925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The initial state of neural networks plays a central role in conditioning the subsequent training dynamics. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a neural network can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We show that the presence of this phenomenon, which we call "Initial Guessing Bias" (IGB), depends on architectural choices such as activation functions, max-pooling layers, and network depth. Our analysis of IGB has practical consequences, in that it guides architecture selection and initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging, the validity of some mean-field approximations, and the non-trivial differences arising with depth.
Abstract（参考訳）: ニューラルネットワークの初期状態は、その後のトレーニングダイナミクスの調整において中心的な役割を果たす。分類問題の文脈では、ニューラルネットワークの構造が、トレーニングの開始前や明示的なバイアスがない場合でも、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す理論的分析を提供する。 IGB(Initial Guessing Bias)と呼ばれるこの現象の存在は、アクティベーション関数、最大プール層、ネットワーク深さといったアーキテクチャ上の選択に依存する。 IGBの分析は、アーキテクチャの選択と初期化のガイドとなる実践的な結果をもたらす。また,ノード置換対称性の分解,自己評価の違反,平均場近似の妥当性,深さによる非自明な相違など,理論的な結果も強調する。

関連論文リスト

Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
When the Left Foot Leads to the Right Path: Bridging Initial Prejudice and Trainability [0.07767214588770123]
平均場解析(MF)は、ランダムネットワークにおけるパラメータ分布が勾配が消滅するか爆発するかを決定することを示した。訓練されていないDNNでは、入力空間の広い領域が1つのクラスに割り当てられる。本研究では、IGB理論と過去のMF理論の対応性を確立する理論的証明を導出する。
論文参考訳（メタデータ） (2025-05-17T17:31:56Z)
Where You Place the Norm Matters: From Prejudiced to Neutral Initializations [5.070645558119592]
バッチ正規化(Batch Normalization)やレイヤ正規化(Layer Normalization)といった正規化レイヤは、現代のニューラルネットワークの中心的なコンポーネントである。本研究では,隠れ層内の正規化の存在と配置が,学習開始前のネットワーク予測の統計的特性に与える影響について検討する。我々の研究は、正規化が早期訓練行動にどのように影響するかを原則的に理解し、より制御され、解釈可能なネットワーク設計のためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-05-16T14:38:30Z)
Generative Flow Networks: Theory and Applications to Structure Learning [7.6872614776094]
この論文は、ベイズの観点からの構造学習の問題を研究する。ジェネレーティブフローネットワーク(GFlowNets)を導入 GFlowNetsは、生成をシーケンシャルな意思決定問題として扱う。
論文参考訳（メタデータ） (2025-01-09T17:47:17Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文参考訳（メタデータ） (2023-06-04T08:53:27Z)
Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2022-12-09T03:58:22Z)
Analysis of Convolutions, Non-linearity and Depth in Graph Neural Networks using Neural Tangent Kernel [8.824340350342512]
グラフニューラルネットワーク(GNN)は、隣接するノードを集約することで、データの構造情報を活用するように設計されている。半教師付きノード分類設定におけるグラフニューラルカーネルを用いて,GNNアーキテクチャの異なる側面の影響を理論的に解析する。 i) 線形ネットワークはReLUネットワークと同じくらいのクラス情報をキャプチャし、 (ii) 行正規化は、他の畳み込みよりも基礎となるクラス構造を保存し、 (iii) 過スムージングによりネットワーク深さが低下し、 (iv) スキップ接続は無限の深さでもクラス情報を保持し、過スムーズを除去する。
論文参考訳（メタデータ） (2022-10-18T12:28:37Z)
With Greater Distance Comes Worse Performance: On the Perspective of Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文参考訳（メタデータ） (2022-01-28T05:26:32Z)
Critical Initialization of Wide and Deep Neural Networks through Partial Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文参考訳（メタデータ） (2021-11-23T20:31:42Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文参考訳（メタデータ） (2021-04-29T14:31:09Z)
Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文参考訳（メタデータ） (2020-09-01T09:07:25Z)
An analytic theory of shallow networks dynamics for hinge loss classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文参考訳（メタデータ） (2020-06-19T16:25:29Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。