Fugu-MT 論文翻訳(概要): A Lightweight and Gradient-Stable Neural Layer

論文の概要: A Lightweight and Gradient-Stable Neural Layer

arxiv url: http://arxiv.org/abs/2106.04088v4
Date: Tue, 26 Mar 2024 06:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 02:19:20.797662
Title: A Lightweight and Gradient-Stable Neural Layer
Title（参考訳）: 軽量で安定なニューラル層
Authors: Yueyao Yu, Yin Zhang,
Abstract要約: 世帯重み付けと絶対値活性化に基づく神経層アーキテクチャを提案する。 $d$-neuronsと$d$の出力を持つ完全連結層と比較して、Han層はパラメータの数とそれに対応する計算複雑性を減らす。
参考スコア（独自算出の注目度）: 3.8263760833282148
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To enhance resource efficiency and model deployability of neural networks, we propose a neural-layer architecture based on Householder weighting and absolute-value activating, called Householder-absolute neural layer or simply Han-layer. Compared to a fully connected layer with $d$-neurons and $d$ outputs, a Han-layer reduces the number of parameters and the corresponding computational complexity from $O(d^2)$ to $O(d)$. {The Han-layer structure guarantees that the Jacobian of the layer function is always orthogonal, thus ensuring gradient stability (i.e., free of gradient vanishing or exploding issues) for any Han-layer sub-networks.} Extensive numerical experiments show that one can strategically use Han-layers to replace fully connected (FC) layers, reducing the number of model parameters while maintaining or even improving the generalization performance. We will also showcase the capabilities of the Han-layer architecture on a few small stylized models, and discuss its current limitations.
Abstract（参考訳）: ニューラルネットワークの資源効率とモデル展開性を向上させるため,世帯重み付けと絶対値活性化に基づくニューラルネットワークアーキテクチャを提案する。完全に連結された$d$-neuronsと$d$出力の層と比較して、Han層はパラメータの数とそれに対応する計算複雑性を$O(d^2)$から$O(d)$に還元する。ハン層構造は、層関数のジャコビアンは常に直交であることを保証するので、任意のハン層サブネットに対して勾配安定性(すなわち、勾配の消失や爆発的な問題のない)が保証される。 } 広汎な数値実験により,ハン層を戦略的に利用して完全に連結された(FC)層を置き換えることができ,一般化性能を維持したり改善したりしながら,モデルパラメータの数を削減できることがわかった。また、いくつかの小さなスタイリングモデル上でHan層アーキテクチャの機能についても紹介し、その現在の制限について論じる。

関連論文リスト

LeanKAN: A Parameter-Lean Kolmogorov-Arnold Network Layer with Improved Memory Efficiency and Convergence Behavior [0.0]
Kolmogorov-Arnoldネットワーク(KAN)は、データ駆動モデリングのための多層パーセプトロン(MLP)に代わる有望な代替品である。ここでは、MultKAN層が出力層において限定的な適用性に悩まされていることが分かる。我々は、MultKANと従来のAddKANレイヤを直接かつモジュール的に置き換えるLeanKANを提案する。
論文参考訳（メタデータ） (2025-02-25T04:43:41Z)
Graded Neural Networks [0.0]
本稿では,次数ベクトル空間上に構築されたグレードドニューラルネットワーク(GNN)のための新しいフレームワークを提案する。潜在的な応用は、高速レーザーベースの実装で実証された機械学習とフォトニクスシステムにまたがる。
論文参考訳（メタデータ） (2025-02-25T01:08:07Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文参考訳（メタデータ） (2023-11-01T16:37:00Z)
MuseGNN: Interpretable and Convergent Graph Neural Network Layers at Scale [15.93424606182961]
本稿では, ある設定における収束保証によって導かれる, サンプリングベースエネルギー関数と拡張性のあるGNN層を反復的に削減する手法を提案する。また、これらの設計に基づいて完全なGNNアーキテクチャをインスタンス化し、1TBを超える最大公用ノード分類ベンチマークに適用した場合の競合精度とスケーラビリティを実現する。
論文参考訳（メタデータ） (2023-10-19T04:30:14Z)
ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文参考訳（メタデータ） (2023-05-24T22:10:12Z)
AGNN: Alternating Graph-Regularized Neural Networks to Alleviate Over-Smoothing [29.618952407794776]
グラフ畳み込み層(GCL)とグラフ埋め込み層(GEL)からなる交代グラフ正規化ニューラルネットワーク(AGNN)を提案する。 GELはラプラシアン埋め込み項を含むグラフ正規化最適化から導かれる。 AGNNは、いくつかの多層または多次グラフニューラルネットワークのパフォーマンス比較を含む、多数の実験を通じて評価されている。
論文参考訳（メタデータ） (2023-04-14T09:20:03Z)
WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文参考訳（メタデータ） (2023-01-03T20:57:22Z)
Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文参考訳（メタデータ） (2022-12-05T14:47:52Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
On Feature Learning in Neural Networks with Global Convergence Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文参考訳（メタデータ） (2022-04-22T15:56:43Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
High-dimensional Neural Feature Design for Layer-wise Reduction of Training Cost [47.34374677507664]
特徴ベクトルを各層の高次元空間にマッピングすることで,ReLUに基づく多層ニューラルネットワークを設計する。提案アーキテクチャはノルム保存であり,可逆的特徴ベクトルを提供する。
論文参考訳（メタデータ） (2020-03-29T15:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。