論文の概要: ANDHRA Bandersnatch: Training Neural Networks to Predict Parallel Realities
- arxiv url: http://arxiv.org/abs/2411.19213v1
- Date: Thu, 28 Nov 2024 15:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:05.400224
- Title: ANDHRA Bandersnatch: Training Neural Networks to Predict Parallel Realities
- Title(参考訳): AndHRA Bandersnatch: 並列現実を予測するニューラルネットワークのトレーニング
- Authors: Venkata Satya Sai Ajay Daliparthi,
- Abstract要約: この研究は、同じ入力信号を各レイヤで並列ブランチに分割する、新しいニューラルネットワークアーキテクチャを導入している。
分岐されたレイヤはマージされず、別々のネットワークパスを形成し、出力予測のために複数のネットワークヘッドが生成される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Inspired by the Many-Worlds Interpretation (MWI), this work introduces a novel neural network architecture that splits the same input signal into parallel branches at each layer, utilizing a Hyper Rectified Activation, referred to as ANDHRA. The branched layers do not merge and form separate network paths, leading to multiple network heads for output prediction. For a network with a branching factor of 2 at three levels, the total number of heads is 2^3 = 8 . The individual heads are jointly trained by combining their respective loss values. However, the proposed architecture requires additional parameters and memory during training due to the additional branches. During inference, the experimental results on CIFAR-10/100 demonstrate that there exists one individual head that outperforms the baseline accuracy, achieving statistically significant improvement with equal parameters and computational cost.
- Abstract(参考訳): many-Worlds Interpretation (MWI)にインスパイアされたこの研究は、新しいニューラルネットワークアーキテクチャを導入し、同じ入力信号を各層で並列ブランチに分割し、ANDHRAと呼ばれるHyper Rectified Activationを利用する。
分岐されたレイヤはマージされず、別々のネットワークパスを形成し、出力予測のために複数のネットワークヘッドが生成される。
分岐係数が3レベルで2のネットワークの場合、頭部の総数は2^3 = 8である。
個々のヘッドは、それぞれの損失値を組み合わせて共同で訓練される。
しかし、提案アーキテクチャでは、追加のブランチのため、トレーニング中にパラメータとメモリを追加する必要がある。
CIFAR-10/100における実験結果は、基準値の精度を上回り、同じパラメータと計算コストで統計的に有意な改善を達成できる1つのヘッドが存在することを示した。
関連論文リスト
- ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - GENNAPE: Towards Generalized Neural Architecture Performance Estimators [25.877126553261434]
GENNAPEは、与えられたニューラルネットワークを、原子操作の計算グラフ(CG)として表現する。
最初に、トポロジ的特徴によるネットワーク分離を促進するために、Contrastive Learningを介してグラフエンコーダを学習する。
実験により、NAS-Bench-101で事前訓練されたGENNAPEは、5つの異なる公開ニューラルネットワークベンチマークに優れた転送性が得られることが示された。
論文 参考訳(メタデータ) (2022-11-30T18:27:41Z) - SGD Distributional Dynamics of Three Layer Neural Networks [7.025709586759655]
本稿は,Mei et alの平均場結果を拡張することを目的とする。
1つの隠れ層を持つ2つのニューラルネットワークから、2つの隠れ層を持つ3つのニューラルネットワークへ。
sgd は非線形微分方程式の組によって捉えられ、2つの層におけるダイナミクスの分布は独立であることが証明される。
論文 参考訳(メタデータ) (2020-12-30T04:37:09Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - Separation of Memory and Processing in Dual Recurrent Neural Networks [0.0]
入力に接続する繰り返し層とフィードフォワード層を積み重ねるニューラルネットワークアーキテクチャを探索する。
繰り返し単位の活性化関数にノイズが導入されたとき、これらのニューロンは二項活性化状態に強制され、ネットワークは有限オートマトンのように振る舞う。
論文 参考訳(メタデータ) (2020-05-17T11:38:42Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。