論文の概要: Adaptive Two Sided Laplace Transforms: A Learnable, Interpretable, and Scalable Replacement for Self-Attention
- arxiv url: http://arxiv.org/abs/2506.15714v1
- Date: Sun, 01 Jun 2025 00:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.783785
- Title: Adaptive Two Sided Laplace Transforms: A Learnable, Interpretable, and Scalable Replacement for Self-Attention
- Title(参考訳): Adaptive Two Sided Laplace Transforms: A Learnable, Interpretable and Scalable Replacement for Self-Attention
- Authors: Andrew Kiruluta,
- Abstract要約: 本稿では,従来の自己注意をトランスフォーマーベースLLMに置き換える,革新的で学習可能な2面短時間ラプラス変換(STLT)機構を提案する。
我々のSTLTは各Laplaceノードに対してトレーニング可能なパラメータを導入し、崩壊率のエンドツーエンド学習を可能にした。
さらに、効率の良いFFTベースの関係行列計算と適応ノード割り当て機構を組み込んで、アクティブなLaplaceノードの数を動的に調整する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an innovative, learnable two-sided short-time Laplace transform (STLT) mechanism to supplant the traditional self attention in transformer-based LLMs. Our STLT introduces trainable parameters for each Laplace node, enabling end-to-end learning of decay rates , oscillatory frequencies, and window bandwidth T. This flexibility allows the model to dynamically adapt token relevance half lives and frequency responses during training. By selecting S learnable nodes and leveraging fast recursive convolution, we achieve an effective complexity of in time and memory. We further incorporate an efficient FFT-based computation of the relevance matrix and an adaptive node allocation mechanism to dynamically adjust the number of active Laplace nodes. Empirical results on language modeling (WikiText\-103, Project Gutenberg), machine translation (WMT'14 En\-De), and long document question answering (NarrativeQA) demonstrate that our learnable STLT achieves perplexities and scores on par with or better than existing efficient transformers while naturally extending to context lengths exceeding 100k tokens or more limited only by available hardware. Ablation studies confirm the importance of learnable parameters and adaptive node allocation. The proposed approach combines interpretability, through explicit decay and frequency parameters, with scalability and robustness, offering a pathway towards ultra-long-sequence language modeling without the computational bottleneck of self-attention.
- Abstract(参考訳): 本稿では,従来の自己注意をトランスフォーマーベースLLMに置き換える,革新的で学習可能な2面短時間ラプラス変換(STLT)機構を提案する。
我々のSTLTは,各Laplaceノードに対してトレーニング可能なパラメータを導入し,減衰率,振動周波数,窓幅Tのエンドツーエンド学習を可能にした。
学習可能なノードを選択し、高速再帰的畳み込みを活用することで、時間とメモリの効率的な複雑さを実現する。
さらに、効率の良いFFTベースの関係行列計算と適応ノード割り当て機構を組み込んで、アクティブなLaplaceノードの数を動的に調整する。
言語モデリング(WikiText\-103, Project Gutenberg)、機械翻訳(WMT'14 En\-De)、長い文書質問応答(NarrativeQA)に関する実証的な結果は、学習可能なSTLTが、既存の効率的なトランスフォーマーと同等以上の複雑さとスコアを達成し、自然に100kトークン以上のコンテキスト長に拡張し、利用可能なハードウェアによってのみ制限されることを示した。
アブレーション研究は学習可能なパラメータと適応ノード割り当ての重要性を裏付ける。
提案手法は、明示的な減衰と周波数パラメータによる解釈可能性とスケーラビリティと堅牢性を組み合わせ、自己注意の計算的ボトルネックを伴わずに超長周期言語モデリングへの道筋を提供する。
関連論文リスト
- Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning [30.51005522218133]
音声・視覚ゼロショット学習のための新しいSTFT(Spking Tucker Fusion Transformer)を提案する。
STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。
本稿では,最大と平均のプール操作を組み合わせたグローバルローカルプール(GLP)を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:01:26Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。