Fugu-MT 論文翻訳(概要): A Method on Searching Better Activation Functions

論文の概要: A Method on Searching Better Activation Functions

arxiv url: http://arxiv.org/abs/2405.12954v1
Date: Sun, 19 May 2024 03:48:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 12:30:44.660990
Title: A Method on Searching Better Activation Functions
Title（参考訳）: より良い活性化関数の探索法
Authors: Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang,
Abstract要約: 深層ニューラルネットワークにおける静的活性化関数を設計するためのエントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。我々は、CRRELU(Correction Regularized ReLU)として知られるReLUから新しいアクティベーション関数を導出する。
参考スコア（独自算出の注目度）: 15.180864683908878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The success of artificial neural networks (ANNs) hinges greatly on the judicious selection of an activation function, introducing non-linearity into network and enabling them to model sophisticated relationships in data. However, the search of activation functions has largely relied on empirical knowledge in the past, lacking theoretical guidance, which has hindered the identification of more effective activation functions. In this work, we offer a proper solution to such issue. Firstly, we theoretically demonstrate the existence of the worst activation function with boundary conditions (WAFBC) from the perspective of information entropy. Furthermore, inspired by the Taylor expansion form of information entropy functional, we propose the Entropy-based Activation Function Optimization (EAFO) methodology. EAFO methodology presents a novel perspective for designing static activation functions in deep neural networks and the potential of dynamically optimizing activation during iterative training. Utilizing EAFO methodology, we derive a novel activation function from ReLU, known as Correction Regularized ReLU (CRReLU). Experiments conducted with vision transformer and its variants on CIFAR-10, CIFAR-100 and ImageNet-1K datasets demonstrate the superiority of CRReLU over existing corrections of ReLU. Extensive empirical studies on task of large language model (LLM) fine-tuning, CRReLU exhibits superior performance compared to GELU, suggesting its broader potential for practical applications.
Abstract（参考訳）: 人工知能ニューラルネットワーク(ANN)の成功は、アクティベーション関数の司法的選択に大きな影響を与え、ネットワークに非線形性を導入し、データ内の洗練された関係をモデル化できるようにする。しかし、活性化関数の探索は過去の経験的知識に大きく依存しており、理論的なガイダンスが欠如しており、より効果的な活性化関数の同定を妨げている。この作業では、そのような問題に対する適切な解決策を提供します。まず、情報エントロピーの観点から、境界条件付き最悪の活性化関数(WAFBC)の存在を理論的に実証する。さらに,情報エントロピー関数のテイラー展開形式に着想を得て,エントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。 EAFO法は、ディープニューラルネットワークにおける静的アクティベーション関数を設計するための新しい視点と、反復トレーニング中に動的にアクティベーションを最適化する可能性を提示する。 EAFO法を用いて,Correction Regularized ReLU(CRRELU)と呼ばれる新しいアクティベーション関数を導出する。 CIFAR-10、CIFAR-100、ImageNet-1Kデータセット上での視覚変換器とその変種による実験は、既存のReLUの補正よりもCRReLUの方が優れていることを示す。大規模言語モデル(LLM)の微調整作業に関する大規模な実証研究において、CRRELUはGELUよりも優れた性能を示し、実用的な応用の可能性を示している。

関連論文リスト

ReCA: A Parametric ReLU Composite Activation Function [0.0]
活性化関数はディープニューラルネットワークの性能に大きな影響を与えることが示されている。本稿では,新しいパラメトリックアクティベーション関数ReCAを提案する。
論文参考訳（メタデータ） (2025-04-11T22:05:57Z)
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文参考訳（メタデータ） (2024-07-26T17:51:58Z)
GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance [2.458437232470188]
GELU活性化関数の可微分性, 有界性, 定常性, 滑らか性について検討した。 GELUは,他のアクティベーション機能と比較して優れた性能を示した。
論文参考訳（メタデータ） (2023-05-20T03:22:43Z)
Efficient Activation Function Optimization through Surrogate Modeling [15.219959721479835]
本稿は,3つのステップを通じて,芸術の状況を改善することを目的としている。まず、Act-Bench-CNN、Act-Bench-ResNet、Act-Bench-ViTのベンチマークは、畳み込み、残留、ビジョントランスフォーマーアーキテクチャのトレーニングによって作成された。第2に、ベンチマーク空間のキャラクタリゼーションが開発され、新しいサロゲートに基づく最適化手法が開発された。
論文参考訳（メタデータ） (2023-01-13T23:11:14Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Stochastic Adaptive Activation Function [1.9199289015460212]
本研究では,単位の位置や入力の文脈に応じて,異なるしきい値と適応的なアクティベーションを促進する,シンプルで効果的なアクティベーション関数を提案する。実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。
論文参考訳（メタデータ） (2022-10-21T01:57:25Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。 RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文参考訳（メタデータ） (2022-08-30T09:47:31Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Discovering Parametric Activation Functions [17.369163074697475]
本稿では,アクティベーション機能を自動でカスタマイズする手法を提案する。 CIFAR-10とCIFAR-100の画像分類データセット上の4つの異なるニューラルネットワークアーキテクチャによる実験は、このアプローチが有効であることを示している。
論文参考訳（メタデータ） (2020-06-05T00:25:33Z)
Evolutionary Optimization of Deep Learning Activation Functions [15.628118691027328]
進化的アルゴリズムは、Rectified Linear Unit(ReLU)より優れている新しいアクティベーション関数を発見できることを示す。 ReLUを活性化関数に置き換えると、統計的にネットワークの精度が向上する。これらの新しい活性化関数は、タスク間で高いパフォーマンスを達成するために一般化される。
論文参考訳（メタデータ） (2020-02-17T19:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。