論文の概要: Mining Generalizable Activation Functions
- arxiv url: http://arxiv.org/abs/2602.05688v1
- Date: Thu, 05 Feb 2026 14:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.965292
- Title: Mining Generalizable Activation Functions
- Title(参考訳): Mining Generalizable Activation Function
- Authors: Alex Vitvitskyi, Michael Boratko, Matej Grcic, Razvan Pascanu, Deep Shah, Petar Veličković,
- Abstract要約: 進化的探索は、新しい活性化関数を見つけるのに有用なフレームワークであると主張する。
比較的小規模な合成データセットは、AlphaEvolveが意味のあるアクティベーションを発見するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 24.370797575430174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of activation function is an active area of research, with different proposals aimed at improving optimization, while maintaining expressivity. Additionally, the activation function can significantly alter the implicit inductive bias of the architecture, controlling its non-linear behavior. In this paper, in line with previous work, we argue that evolutionary search provides a useful framework for finding new activation functions, while we also make two novel observations. The first is that modern pipelines, such as AlphaEvolve, which relies on frontier LLMs as a mutator operator, allows for a much wider and flexible search space; e.g., over all possible python functions within a certain FLOP budget, eliminating the need for manually constructed search spaces. In addition, these pipelines will be biased towards meaningful activation functions, given their ability to represent common knowledge, leading to a potentially more efficient search of the space. The second observation is that, through this framework, one can target not only performance improvements but also activation functions that encode particular inductive biases. This can be done by using performance on out-of-distribution data as a fitness function, reflecting the degree to which the architecture respects the inherent structure in the data in a manner independent of distribution shifts. We carry an empirical exploration of this proposal and show that relatively small scale synthetic datasets can be sufficient for AlphaEvolve to discover meaningful activations.
- Abstract(参考訳): 活性化関数の選択は研究の活発な領域であり、表現性を維持しながら最適化を改善するための様々な提案がある。
さらに、アクティベーション関数はアーキテクチャの暗黙の帰納バイアスを著しく変化させ、非線形な振る舞いを制御する。
本稿では,従来の研究と並んで,進化的探索は新たな活性化関数の発見に有用なフレームワークであり,同時に2つの新しい観察を行う。
第一に、AlphaEvolveのような現代のパイプラインは、ミュータ演算子としてフロンティア LLM に依存しており、より広く柔軟な探索空間を可能にしている。
さらに、これらのパイプラインは、共通の知識を表現する能力から有意義な活性化関数に偏り、空間のより効率的な探索に繋がる。
2つ目の観察は、このフレームワークを通じて、パフォーマンスの改善だけでなく、特定の帰納的バイアスを符号化するアクティベーション関数もターゲットにすることができることである。
これは、分布シフトに依存しない方法で、アーキテクチャがデータの本質的構造を尊重する程度を反映して、分布外データのパフォーマンスを適合関数として使用することで実現できる。
この提案を実証的に検討し、AlphaEvolveが意味のあるアクティベーションを発見するのに、比較的小規模な合成データセットが十分であることを示す。
関連論文リスト
- Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Efficient Activation Function Optimization through Surrogate Modeling [15.219959721479835]
本稿は,3つのステップを通じて,芸術の状況を改善することを目的としている。
まず、Act-Bench-CNN、Act-Bench-ResNet、Act-Bench-ViTのベンチマークは、畳み込み、残留、ビジョントランスフォーマーアーキテクチャのトレーニングによって作成された。
第2に、ベンチマーク空間のキャラクタリゼーションが開発され、新しいサロゲートに基づく最適化手法が開発された。
論文 参考訳(メタデータ) (2023-01-13T23:11:14Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Efficient Neural Network Analysis with Sum-of-Infeasibilities [64.31536828511021]
凸最適化における総和係数法に着想を得て,広範な分岐関数を持つネットワーク上での検証クエリを解析するための新しい手法を提案する。
標準ケース分析に基づく完全探索手順の拡張は、各検索状態で実行される凸手順をDeepSoIに置き換えることによって達成できる。
論文 参考訳(メタデータ) (2022-03-19T15:05:09Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。