Fugu-MT 論文翻訳(概要): Transformer Approximations from ReLUs

論文の概要: Transformer Approximations from ReLUs

arxiv url: http://arxiv.org/abs/2604.24878v1
Date: Mon, 27 Apr 2026 18:04:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.539723
Title: Transformer Approximations from ReLUs
Title（参考訳）: ReLUからの変圧器近似
Authors: Jerry Yao-Chieh Hu, Mingcheng Lu, Yi-Chen Lee, Han Liu,
Abstract要約: 本稿では,ReLU近似結果をソフトマックスアテンション機構に変換するための体系的レシピを提案する。本稿では、乗法、相互計算、min/maxプリミティブに関するレシピを紹介する。
参考スコア（独自算出の注目度）: 14.956139858297869
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We provide a systematic recipe for translating ReLU approximation results to softmax attention mechanism. This recipe covers many common approximation targets. Importantly, it yields target-specific, economic resource bounds beyond universal approximation statements. We showcase the recipe on multiplication, reciprocal computation, and min/max primitives. These results provide new analytical tools for analyzing softmax transformer models.
Abstract（参考訳）: 本稿では,ReLU近似結果をソフトマックスアテンション機構に変換するための体系的レシピを提案する。このレシピは多くの一般的な近似対象をカバーしている。重要なことに、それは普遍的な近似ステートメントを超えて、ターゲット固有で経済的なリソース境界をもたらす。本稿では、乗法、相互計算、min/maxプリミティブに関するレシピを紹介する。これらの結果は,ソフトマックス変圧器モデル解析のための新しい解析ツールを提供する。

関連論文リスト

LAMP: Look-Ahead Mixed-Precision Inference of Large Language Models [2.845351470902218]
本稿では,変圧器推論に着目した合成リッチ関数の浮動小数点計算について述べる。我々は、より正確に計算するために$g(mathrmx)$の小さな部分集合を選択し、他の全ての計算をより低い精度で行うための適応戦略を提供する。このアルゴリズムの有効性をGPT-2モデルで数値的に検討し、すでに非常に低い再計算率で最大2桁の精度向上が可能であることを実証した。
論文参考訳（メタデータ） (2026-01-29T12:26:00Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
The Sample Complexity of Learning Lipschitz Operators with respect to Gaussian Measures [1.037768322019687]
ガウス測度に関するリプシッツ作用素の近似について検討する。任意の(潜在的に適応的な)線形サンプルからリプシッツ作用素の一般的な再構成戦略について検討する。
論文参考訳（メタデータ） (2024-10-30T20:32:30Z)
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文参考訳（メタデータ） (2023-10-22T05:32:19Z)
An Iterative Algorithm for Rescaled Hyperbolic Functions Regression [7.578147116161996]
大規模言語モデル(LLM)は、様々な領域にまたがる多数の実環境アプリケーションを持つ。 LLMは自然言語処理(NLP)の分野に革命をもたらす可能性がある
論文参考訳（メタデータ） (2023-05-01T05:16:07Z)
Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文参考訳（メタデータ） (2022-09-20T16:42:59Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。