Fugu-MT 論文翻訳(概要): Learnable polynomial, trigonometric, and tropical activations

論文の概要: Learnable polynomial, trigonometric, and tropical activations

arxiv url: http://arxiv.org/abs/2502.01247v1
Date: Mon, 03 Feb 2025 11:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.644292
Title: Learnable polynomial, trigonometric, and tropical activations
Title（参考訳）: 学習可能な多項式、三角運動学および熱帯活性化
Authors: Ismail Khalfaoui-Hassani, Stefan Kesselheim,
Abstract要約: 本稿では,関数ベースと熱帯性に基づく学習可能な活性化関数を持つスケーラブルニューラルネットワークについて検討する。本稿では,変圧器と畳み込みネットワークのユニタリ分散を保ち,深いアーキテクチャにおいても安定した勾配流を確保する手法を提案する。実験により、Hermite、Fourier、Tropicalをベースとした学習可能なアクティベーションを持つネットワークは、GPT-2およびConvNeXtネットワークよりも、列車とテストの精度とパープレキシティにおいて著しく改善されていることが示された。
参考スコア（独自算出の注目度）: 1.534667887016089
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates scalable neural networks with learnable activation functions based on orthogonal function bases and tropical polynomials, targeting ImageNet-1K classification and next token prediction on OpenWebText. Traditional activations, such as ReLU, are static. In contrast, learnable activations enable the network to adapt dynamically during training. However, stability issues, such as vanishing or exploding gradients, arise with improper variance management in deeper networks. To remedy this, we propose an initialization scheme that single-handedly preserves unitary variance in transformers and convolutional networks, ensuring stable gradient flow even in deep architectures. Extensive experiments demonstrate that networks with Hermite, Fourier, and Tropical-based learnable activations significantly improve over GPT-2 and ConvNeXt networks in terms of accuracy and perplexity in train and test, highlighting the viability of learnable activations in large-scale tasks. The activation functions developed here are the subject of a library coded entirely in pure PyTorch: torchortho, available at https://github.com/K-H-Ismail/torchortho.
Abstract（参考訳）: 本稿では,イメージNet-1K分類とOpenWebText上での次のトークン予測を対象とし,直交関数基底と熱帯多項式に基づく学習可能なアクティベーション関数を持つスケーラブルニューラルネットワークについて検討する。 ReLUのような従来のアクティベーションは静的である。対照的に、学習可能なアクティベーションは、トレーニング中にネットワークが動的に適応できるようにする。しかし、勾配の消滅や爆発などの安定性問題は、より深いネットワークにおける不適切な分散管理によって生じる。そこで本稿では, 変圧器と畳み込みネットワークにおける一元分散を一元的に保ち, 深いアーキテクチャにおいても安定した勾配流を確保できる初期化手法を提案する。大規模な実験では、GPT-2やConvNeXtネットワークよりも、Hermite、Fourier、Tropicalをベースとした学習可能なアクティベーションを持つネットワークが、列車やテストの正確性と難易度の観点から大幅に改善され、大規模タスクにおける学習可能なアクティベーションの実現可能性を強調している。ここで開発されたアクティベーション機能は、純粋なPyTorch: torchorthoで完全にコードされたライブラリの主題である。

関連論文リスト

Principled Approaches for Extending Neural Architectures to Function Spaces for Operator Learning [78.88684753303794]
ディープラーニングは主にコンピュータビジョンと自然言語処理の応用を通じて進歩してきた。ニューラル演算子は、関数空間間のマッピングにニューラルネットワークを一般化する原則的な方法である。本稿では、無限次元関数空間間の写像の実践的な実装を構築するための鍵となる原理を同定し、蒸留する。
論文参考訳（メタデータ） (2025-06-12T17:59:31Z)
Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。 g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文参考訳（メタデータ） (2024-11-15T18:03:52Z)
Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。マルチリニア演算子のみに依存するMONetを提案する。
論文参考訳（メタデータ） (2024-01-31T16:52:19Z)
Regularization of polynomial networks for image recognition [78.4786845859205]
PN(Polynomial Networks)は、将来性があり、解釈可能性も向上した代替手法として登場した。 6つのベンチマークでResNetのパフォーマンスに到達できるPNのクラスを紹介します。
論文参考訳（メタデータ） (2023-03-24T10:05:22Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文参考訳（メタデータ） (2023-02-27T18:52:38Z)
Unification of popular artificial neural network activation functions [0.0]
本稿では,最も一般的なニューラルネットワーク活性化関数の統一表現について述べる。分数計算のMittag-Leffler関数を採用することにより、フレキシブルでコンパクトな関数形式を提案する。
論文参考訳（メタデータ） (2023-02-21T21:20:59Z)
Simple initialization and parametrization of sinusoidal networks via their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。まず,このような正弦波ニューラルネットワークの簡易版を提案する。次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文参考訳（メタデータ） (2022-11-26T07:41:48Z)
Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。本稿では,LGM(Leaded Gradient Method)を提案する。我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文参考訳（メタデータ） (2022-10-15T01:32:08Z)
Rapid training of deep neural networks without skip connections or normalization layers using Deep Kernel Shaping [46.083745557823164]
我々は、深層ネットワークに存在する主な病理組織を特定し、それらが高速にトレーニングされ、目に見えないデータに一般化されるのを防ぐ。本稿では,ネットワークのカーネル関数の「形状」を慎重に制御することで,これらを回避する方法を示す。
論文参考訳（メタデータ） (2021-10-05T00:49:36Z)
Ladder Polynomial Neural Networks [6.902168821854859]
多項式関数は有用な解析的性質を多数持っているが、それらの関数クラスは制限されていると考えられるため、学習モデルとして使われることは滅多にない。この研究は積の活性化を利用してフィードフォワードニューラルネットワークを構築し、乗算から構築された新しい活性化関数である。
論文参考訳（メタデータ） (2021-06-25T18:16:48Z)
Learning specialized activation functions with the Piecewise Linear Unit [7.820667552233989]
本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。 PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
論文参考訳（メタデータ） (2021-04-08T11:29:11Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
A Use of Even Activation Functions in Neural Networks [0.35172332086962865]
本稿では,データ構造に関する既存の知識や仮説を統合するために,独自のアクティベーション関数を構築する方法を提案する。完全に接続されたレイヤの1つで偶発的なアクティベーション関数を使用することで、ニューラルネットワークの性能が向上することを示す。
論文参考訳（メタデータ） (2020-11-23T20:33:13Z)
Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。 $Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文参考訳（メタデータ） (2020-06-20T16:23:32Z)
A survey on modern trainable activation functions [0.0]
本稿では,訓練可能なアクティベーション関数の分類法を提案し,近年のモデルと過去のモデルの共通性と特異性を強調した。提案手法の多くは、固定的な(訓練不能な)アクティベーション関数を使用するニューロン層の追加と等価であることを示す。
論文参考訳（メタデータ） (2020-05-02T12:38:43Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
Tunable Quantum Neural Networks for Boolean Functions [0.0]
ブール関数を学習するためにゲートを調整できる汎用量子回路のアイデアを導入する。学習課題を実行するために,測定の欠如を利用したアルゴリズムを考案した。
論文参考訳（メタデータ） (2020-03-31T11:55:01Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。