論文の概要: Polynomial, trigonometric, and tropical activations
- arxiv url: http://arxiv.org/abs/2502.01247v2
- Date: Mon, 26 May 2025 15:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.14976
- Title: Polynomial, trigonometric, and tropical activations
- Title(参考訳): ポリノミアル、トリゴノメトリー、熱帯の活性化
- Authors: Ismail Khalfaoui-Hassani, Stefan Kesselheim,
- Abstract要約: 本稿では、エルミート基底や三角基底を含む正則基底に基づく関数の族について考察する。
簡単な分散保存と追加のクラッピング機構を使わずに、これらの活性化が深層モデルの学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Which functions can be used as activations in deep neural networks? This article explores families of functions based on orthonormal bases, including the Hermite polynomial basis and the Fourier trigonometric basis, as well as a basis resulting from the tropicalization of a polynomial basis. Our study shows that, through simple variance-preserving initialization and without additional clamping mechanisms, these activations can successfully be used to train deep models, such as GPT-2 for next-token prediction on OpenWebText and ConvNeXt for image classification on ImageNet. Our work addresses the issue of exploding and vanishing activations and gradients, particularly prevalent with polynomial activations, and opens the door for improving the efficiency of large-scale learning tasks. Furthermore, our approach provides insight into the structure of neural networks, revealing that networks with polynomial activations can be interpreted as multivariate polynomial mappings. Finally, using Hermite interpolation, we show that our activations can closely approximate classical ones in pre-trained models by matching both the function and its derivative, making them especially useful for fine-tuning tasks. These activations are available in the torchortho library, which can be accessed via: https://github.com/K-H-Ismail/torchortho.
- Abstract(参考訳): ディープニューラルネットワークのアクティベーションとして使用できる機能は何か?
本稿では,Hermite多項式基底とフーリエ三角関数基底を含む正規直交基底に基づく関数群と,多項式基底の熱帯化から生じる基底について考察する。
本研究は, 簡易な分散保存初期化と, 付加的なクランプ機構を使わずに, これらのアクティベーションを深層モデルのトレーニングに有効であることを示す。
我々の研究は、特に多項式の活性化に伴う活性化と勾配の爆発・消滅の問題に対処し、大規模学習タスクの効率化のための扉を開く。
さらに, ニューラルネットワークの構造を考察した結果, 多項式の活性化を伴うネットワークを多変量多項式写像として解釈できることが判明した。
最後に、Hermite補間法を用いて、関数とその導関数をマッチングすることにより、事前学習されたモデルにおける古典的モデルの活性化が近似できることを示し、微調整タスクに特に有用である。
これらのアクティベーションはTorchorthoライブラリで利用可能で、https://github.com/K-H-Ismail/torchorthoを通じてアクセスすることができる。
関連論文リスト
- Principled Approaches for Extending Neural Architectures to Function Spaces for Operator Learning [78.88684753303794]
ディープラーニングは主にコンピュータビジョンと自然言語処理の応用を通じて進歩してきた。
ニューラル演算子は、関数空間間のマッピングにニューラルネットワークを一般化する原則的な方法である。
本稿では、無限次元関数空間間の写像の実践的な実装を構築するための鍵となる原理を同定し、蒸留する。
論文 参考訳(メタデータ) (2025-06-12T17:59:31Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。
マルチリニア演算子のみに依存するMONetを提案する。
論文 参考訳(メタデータ) (2024-01-31T16:52:19Z) - Regularization of polynomial networks for image recognition [78.4786845859205]
PN(Polynomial Networks)は、将来性があり、解釈可能性も向上した代替手法として登場した。
6つのベンチマークでResNetのパフォーマンスに到達できるPNのクラスを紹介します。
論文 参考訳(メタデータ) (2023-03-24T10:05:22Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Unification of popular artificial neural network activation functions [0.0]
本稿では,最も一般的なニューラルネットワーク活性化関数の統一表現について述べる。
分数計算のMittag-Leffler関数を採用することにより、フレキシブルでコンパクトな関数形式を提案する。
論文 参考訳(メタデータ) (2023-02-21T21:20:59Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Rapid training of deep neural networks without skip connections or
normalization layers using Deep Kernel Shaping [46.083745557823164]
我々は、深層ネットワークに存在する主な病理組織を特定し、それらが高速にトレーニングされ、目に見えないデータに一般化されるのを防ぐ。
本稿では,ネットワークのカーネル関数の「形状」を慎重に制御することで,これらを回避する方法を示す。
論文 参考訳(メタデータ) (2021-10-05T00:49:36Z) - Ladder Polynomial Neural Networks [6.902168821854859]
多項式関数は有用な解析的性質を多数持っているが、それらの関数クラスは制限されていると考えられるため、学習モデルとして使われることは滅多にない。
この研究は積の活性化を利用してフィードフォワードニューラルネットワークを構築し、乗算から構築された新しい活性化関数である。
論文 参考訳(メタデータ) (2021-06-25T18:16:48Z) - Learning specialized activation functions with the Piecewise Linear Unit [7.820667552233989]
本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。
特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
論文 参考訳(メタデータ) (2021-04-08T11:29:11Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - A Use of Even Activation Functions in Neural Networks [0.35172332086962865]
本稿では,データ構造に関する既存の知識や仮説を統合するために,独自のアクティベーション関数を構築する方法を提案する。
完全に接続されたレイヤの1つで偶発的なアクティベーション関数を使用することで、ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-23T20:33:13Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z) - A survey on modern trainable activation functions [0.0]
本稿では,訓練可能なアクティベーション関数の分類法を提案し,近年のモデルと過去のモデルの共通性と特異性を強調した。
提案手法の多くは、固定的な(訓練不能な)アクティベーション関数を使用するニューロン層の追加と等価であることを示す。
論文 参考訳(メタデータ) (2020-05-02T12:38:43Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Tunable Quantum Neural Networks for Boolean Functions [0.0]
ブール関数を学習するためにゲートを調整できる汎用量子回路のアイデアを導入する。
学習課題を実行するために,測定の欠如を利用したアルゴリズムを考案した。
論文 参考訳(メタデータ) (2020-03-31T11:55:01Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。