論文の概要: Information Geometry of Evolution of Neural Network Parameters While Training
- arxiv url: http://arxiv.org/abs/2406.05295v1
- Date: Fri, 7 Jun 2024 23:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:34:04.656339
- Title: Information Geometry of Evolution of Neural Network Parameters While Training
- Title(参考訳): 学習中のニューラルネットワークパラメータの進化に関する情報幾何学
- Authors: Abhiram Anand Thiruthummal, Eun-jin Kim, Sergiy Shelyag,
- Abstract要約: 本稿では,ANNの訓練における位相遷移様の挙動を調べるための情報幾何学的枠組みの応用について紹介する。
トレーニング中のANNの進化は、そのパラメータの確率分布を調べることによって研究される。
ANNのトレーニング中に多様体上の運動の遷移を観察し、この遷移をANNモデルにおける過度な適合と同定する。
- 参考スコア(独自算出の注目度): 0.1874930567916036
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial neural networks (ANNs) are powerful tools capable of approximating any arbitrary mathematical function, but their interpretability remains limited, rendering them as black box models. To address this issue, numerous methods have been proposed to enhance the explainability and interpretability of ANNs. In this study, we introduce the application of information geometric framework to investigate phase transition-like behavior during the training of ANNs and relate these transitions to overfitting in certain models. The evolution of ANNs during training is studied by looking at the probability distribution of its parameters. Information geometry utilizing the principles of differential geometry, offers a unique perspective on probability and statistics by considering probability density functions as points on a Riemannian manifold. We create this manifold using a metric based on Fisher information to define a distance and a velocity. By parameterizing this distance and velocity with training steps, we study how the ANN evolves as training progresses. Utilizing standard datasets like MNIST, FMNIST and CIFAR-10, we observe a transition in the motion on the manifold while training the ANN and this transition is identified with over-fitting in the ANN models considered. The information geometric transitions observed is shown to be mathematically similar to the phase transitions in physics. Preliminary results showing finite-size scaling behavior is also provided. This work contributes to the development of robust tools for improving the explainability and interpretability of ANNs, aiding in our understanding of the variability of the parameters these complex models exhibit during training.
- Abstract(参考訳): 人工ニューラルネットワーク(ANN)は任意の数学的関数を近似できる強力なツールであるが、その解釈可能性はまだ限られており、ブラックボックスモデルとして機能する。
この問題に対処するために、ANNの説明可能性と解釈可能性を高めるために、数多くの手法が提案されている。
本研究では,ANNのトレーニング中に相転移様の挙動を調べるための情報幾何学的枠組みの適用について紹介し,これらの遷移を特定のモデルにおける過度適合に関連付ける。
トレーニング中のANNの進化は、そのパラメータの確率分布を調べることによって研究される。
微分幾何学の原理を利用する情報幾何学は、確率密度関数をリーマン多様体上の点として考えることにより、確率と統計に関するユニークな視点を提供する。
我々はフィッシャー情報に基づく計量を用いてこの多様体を作成し、距離と速度を定義する。
この距離と速度をトレーニングステップでパラメータ化することにより、トレーニングが進むにつれてANNがどのように進化するかを研究する。
MNIST,FMNIST,CIFAR-10などの標準データセットを用いて,ANNのトレーニング中に多様体上の運動の遷移を観察し,この遷移をANNモデルにおける過度な適合と同定する。
観測された幾何学的遷移は、物理学における相転移と数学的に類似していることが示されている。
有限サイズのスケーリング挙動を示す予備的な結果も提供される。
この研究は、ANNの説明可能性と解釈可能性を改善するための堅牢なツールの開発に貢献し、これらの複雑なモデルがトレーニング中に示すパラメータの多様性の理解を支援します。
関連論文リスト
- You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。
本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T10:17:43Z) - Analyzing Deep Transformer Models for Time Series Forecasting via Manifold Learning [4.910937238451485]
トランスフォーマーモデルは、自然言語処理やコンピュータビジョンといった様々な領域において、一貫して顕著な成果を上げてきた。
これらのモデルをよりよく理解するための継続的な研究努力にもかかわらず、この分野はいまだに包括的な理解を欠いている。
画像やテキスト情報とは異なり、時系列データは解釈し分析することがより困難である。
論文 参考訳(メタデータ) (2024-10-17T17:32:35Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Deep Learning as Ricci Flow [38.27936710747996]
ディープニューラルネットワーク(DNN)は、複雑なデータの分布を近似する強力なツールである。
分類タスク中のDNNによる変換は、ハミルトンのリッチ流下で期待されるものと類似していることを示す。
本研究の成果は, 微分幾何学や離散幾何学から, 深層学習における説明可能性の問題まで, ツールの利用を動機づけるものである。
論文 参考訳(メタデータ) (2024-04-22T15:12:47Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Random Grid Neural Processes for Parametric Partial Differential
Equations [5.244037702157957]
我々はPDEのための空間確率物理の新しいクラスと深部潜伏モデルについて紹介する。
パラメトリックPDEの前方および逆問題を解場のガウス過程モデルの構築につながる方法で解く。
物理情報モデルにノイズのあるデータを原則的に組み込むことで、データの入手可能な問題に対する予測を改善する方法を示す。
論文 参考訳(メタデータ) (2023-01-26T11:30:56Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Fusing the Old with the New: Learning Relative Camera Pose with
Geometry-Guided Uncertainty [91.0564497403256]
本稿では,ネットワークトレーニング中の2つの予測系間の確率的融合を含む新しい枠組みを提案する。
本ネットワークは,異なる対応間の強い相互作用を強制することにより学習を駆動する自己追跡グラフニューラルネットワークを特徴とする。
学習に適したモーションパーマリゼーションを提案し、難易度の高いDeMoNおよびScanNetデータセットで最新のパフォーマンスを達成できることを示します。
論文 参考訳(メタデータ) (2021-04-16T17:59:06Z) - Phase Detection with Neural Networks: Interpreting the Black Box [58.720142291102135]
ニューラルネットワーク(NN)は通常、予測の背後にある推論に対する洞察を妨げます。
本研究では,1次元拡張スピンレスFermi-Hubbardモデルの位相を半充足で予測するために,NNのブラックボックスをいかに影響関数が解き放つかを示す。
論文 参考訳(メタデータ) (2020-04-09T17:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。