論文の概要: Energy-Gated Attention: Spectral Salience as an Inductive Bias for Transformer Attention
- arxiv url: http://arxiv.org/abs/2605.21842v1
- Date: Thu, 21 May 2026 00:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.036633
- Title: Energy-Gated Attention: Spectral Salience as an Inductive Bias for Transformer Attention
- Title(参考訳): エネルギー依存型注意:変圧器注意誘導バイアスとしての分光塩分
- Authors: Athanasios Zeris,
- Abstract要約: 乱流流体力学では、コヒーレント構造は全エネルギーの不均等な部分を持ち、全ての輸送を支配している。
我々は,トークンが変圧器の注意に類似する役割を担っていることを提案する。
本稿では,EGA(Energy-Gated Attention)がキートークン埋め込みのスペクトルエネルギーによる値集約を実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard transformer attention computes pairwise similarity between queries and keys, treating all tokens as equally salient regardless of their intrinsic informational content. In turbulent fluid dynamics, coherent structures -- the energetically dominant, spatially organized patterns that persist amid background chaos -- carry a disproportionate fraction of total energy and govern all transport. We propose that tokens play an analogous role in transformer attention: informationally dense positions (morphological boundaries, syntactic heads, discourse markers) concentrate spectral energy and should attract proportionally more attention than background tokens (function words, repeated patterns, low-information filler). We propose Energy-Gated Attention (EGA): a simple modification that gates value aggregation by the spectral energy of key token embeddings, computed by a single learned linear projection that discovers the dominant spectral mode of the embedding field. On TinyShakespeare, EGA achieves +0.103 validation loss improvement with only 12,480 additional parameters (<0.26% overhead) and no measurable computational cost. The result is consistent on Penn Treebank (+0.101), demonstrating dataset independence. A systematic ablation across three wavelet families (fixed Morlet, Daubechies db2/db4, and a parametric Morlet) establishes that fixed structured bases are suboptimal -- the optimal energy direction is data-adaptive and non-sinusoidal -- while identifying learned wavelet packets as a promising open direction. The learned energy threshold converges to tau ~= 0.35 independently of initialization, corresponding to the fraction (~36%) of tokens carrying above-average spectral energy in English text, a stable linguistic property consistent with the fraction of content words in running English text.
- Abstract(参考訳): 標準トランスフォーマーアテンションは、クエリとキーのペアの類似性を計算し、すべてのトークンを固有の情報内容に関係なく平等に扱う。
乱流流体力学におけるコヒーレント構造(コヒーレント構造、英: coherent structure)は、背景のカオスの中で持続するエネルギー的に支配的であり、空間的に組織化されたパターンであり、全エネルギーの不均等な部分を持ち、全ての輸送を支配している。
情報密度の高い位置(形態的境界、構文的ヘッド、談話マーカー)はスペクトルエネルギーに集中し、背景トークン(関数語、繰り返しパターン、低情報フィラー)よりも比例的に注目を集めるべきである。
本稿では,鍵トークン埋め込みのスペクトルエネルギーによる値集約をゲートする簡単な修正法であるEGA(Energy-Gated Attention)を提案する。
TinyShakespeareでは、EGAは12,480の追加パラメータ(<0.26%のオーバーヘッド)と測定可能な計算コストを伴わず、+0.103の検証損失の改善を実現している。
その結果はPenn Treebank (+0.101) に一貫性があり、データセットの独立性を実証している。
3つのウェーブレット群(固定モレット、ダウビーズdb2/db4、パラメトリックモレット)の体系的アブレーションは、固定された構造化されたベースが最適以下のことを証明し、最適エネルギー方向はデータ適応性と非正弦波であり、学習されたウェーブレットパケットを有望なオープン方向として識別する。
学習されたエネルギー閾値は初期化とは無関係に Tau ~= 0.35 に収束し、英語テキストにおける平均スペクトルエネルギーを持つトークンの分数(~36%)に対応する。
関連論文リスト
- Lost in Tokenization: Fundamental Trade-offs in Graph Tokenization for Transformers [50.98108117044413]
グラフ・ツー・トケン写像の選択は変換器の表現性の基本成分であることを示す。
既存の多くのグラフトークン化のためのビルディングブロックとして機能する3つのトークン化(スペクトル、ランダムウォーク、隣接トークン化)について検討する。
論文 参考訳(メタデータ) (2026-05-21T13:32:20Z) - Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning [11.322734738973603]
強化学習に基づくポストトレーニングは、大規模言語モデルの推論能力を向上させるための重要なアプローチとなっている。
この研究は、各応答トークンに対する文脈支援の集中度や拡散度を測定する注意エントロピーを通して、それらの不均一性を研究する。
論文 参考訳(メタデータ) (2026-05-08T12:31:28Z) - Triple Spectral Fusion for Sensor-based Human Activity Recognition [86.21994396715074]
本稿では,センサを用いたヒューマンアクティビティ認識(HAR)に適した新しい三重スペクトル融合フレームワークを提案する。
雑音抑制のための適応的な補間フィルタリング手法を開発し,各IMUセンサを姿勢・運動モードノードに整理する。
適応ウェーブレット周波数選択手法により、コンテキストの冗長性を抑え、特徴の長さを短縮する。
論文 参考訳(メタデータ) (2026-05-04T15:42:58Z) - A Boltzmann-machine-enhanced Transformer For DNA Sequence Classification [0.8711791966428426]
DNA配列分類のためのボルツマン機械エンハンストランスを提案する。
このモデルは、遅延接続を表すために構造化されたバイナリゲーティング変数を導入し、クエリキー接続で制約する。
トレーニング中、分類とエネルギー損失を共同で最適化し、正確な予測を行うようモデルに促す。
論文 参考訳(メタデータ) (2026-03-27T14:32:37Z) - TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Entropy-based Coarse and Compressed Semantic Speech Representation Learning [72.18542411704347]
圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
論文 参考訳(メタデータ) (2025-08-30T13:50:58Z) - EnergyFormer: Energy Attention with Fourier Embedding for Hyperspectral Image Classification [3.105394345970172]
HSIデータの高次元性とスペクトル変動は特徴抽出と分類の課題を提起する。
本稿では,これらの課題に対処するトランスフォーマーベースのフレームワークであるEnergyFormerについて述べる。
EnergyFormerは99.28%、98.63%、98.72%という例外的な総合的な精度を達成し、最先端のCNN、トランスフォーマー、およびマンバベースのモデルを上回っている。
論文 参考訳(メタデータ) (2025-03-11T10:03:35Z) - Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。
この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文 参考訳(メタデータ) (2024-04-24T05:37:17Z) - Gramformer: Learning Crowd Counting via Graph-Modulated Transformer [68.26599222077466]
Gramformerはグラフ変調変換器で、それぞれ注意点と入力ノードの特徴を調整してネットワークを強化する。
ノードの集中位置や重要性を発見するために,特徴に基づく符号化を提案する。
提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-01-08T13:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。