論文の概要: Hierarchical Kernel Transformer: Multi-Scale Attention with an Information-Theoretic Approximation Analysis
- arxiv url: http://arxiv.org/abs/2604.08829v1
- Date: Fri, 10 Apr 2026 00:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.616096
- Title: Hierarchical Kernel Transformer: Multi-Scale Attention with an Information-Theoretic Approximation Analysis
- Title(参考訳): 階層型カーネルトランス:情報理論近似解析によるマルチスケールアテンション
- Authors: Giansalvo Cirrincione,
- Abstract要約: 階層カーネル変換器(Hierarchical Kernel Transformer, HKT)は、訓練可能な因果ダウンサンプリングを通じてL解像度レベルでシーケンスを処理するマルチスケールアテンション機構である。
全計算コストは標準注意の4/3倍に制限され、L = 3 に対して 1.3125x に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Hierarchical Kernel Transformer (HKT) is a multi-scale attention mechanism that processes sequences at L resolution levels via trainable causal downsampling, combining level-specific score matrices through learned convex weights. The total computational cost is bounded by 4/3 times that of standard attention, reaching 1.3125x for L = 3. Four theoretical results are established. (i) The hierarchical score matrix defines a positive semidefinite kernel under a sufficient condition on the symmetrised bilinear form (Proposition 3.1). (ii) The asymmetric score matrix decomposes uniquely into a symmetric part controlling reciprocal attention and an antisymmetric part controlling directional attention; HKT provides L independent such pairs across scales, one per resolution level (Propositions 3.5-3.6). (iii) The approximation error decomposes into three interpretable components with an explicit non-Gaussian correction and a geometric decay bound in L (Theorem 4.3, Proposition 4.4). (iv) HKT strictly subsumes single-head standard attention and causal convolution (Proposition 3.4). Experiments over 3 random seeds show consistent gains over retrained standard attention baselines: +4.77pp on synthetic ListOps (55.10+-0.29% vs 50.33+-0.12%, T = 512), +1.44pp on sequential CIFAR-10 (35.45+-0.09% vs 34.01+-0.19%, T = 1,024), and +7.47pp on IMDB character-level sentiment (70.19+-0.57% vs 62.72+-0.40%, T = 1,024), all at 1.31x overhead.
- Abstract(参考訳): 階層カーネル変換器(Hierarchical Kernel Transformer, HKT)は、学習凸重みによるレベル固有のスコア行列を組み合わせた訓練可能な因果ダウンサンプリングにより、L分解能レベルでのシーケンスを処理するマルチスケールアテンション機構である。
計算コストは標準注意の4/3倍に制限され、L = 3 に対して 1.3125x に達する。
4つの理論結果が確立された。
i) 階層的なスコア行列は、対称性を持つ双線型形式上の十分条件の下で正の半定値核を定義する(命題3.1)。
(II)非対称スコア行列は、相互注意を制御する対称部分と方向注意を制御する反対称部分とに一意に分解される。
3)近似誤差は、3つの解釈可能な成分に分解され、明示的な非ガウス補正と L に有界な幾何崩壊(定理 4.3, 命題 4.4)。
(4)HKTは厳密に単頭標準の注意と因果畳み込みを仮定する(命題3.4)。
3つのランダムシードによる実験では、合成リストOpsの+4.77pp(55.10+-0.29% vs 50.33+-0.12%, T = 512)、シーケンシャルCIFAR-10の+1.44pp(35.45+-0.09% vs 34.01+-0.19%, T = 1,024)、IMDBのキャラクターレベルの感情の+7.47pp(70.19+-0.57% vs 62.72+-0.40%, T = 1,024)がそれぞれ1.31xオーバーヘッドである。
関連論文リスト
- Exhaustive Circuit Mapping of a Single-Cell Foundation Model Reveals Massive Redundancy, Heavy-Tailed Hub Architecture, and Layer-Dependent Differentiation Control [0.0]
本稿では, サーキットトレース, 高次アブレーション, 因果軌道ステアリングによる限界に対処する3つの実験について述べる。
第一に、第5層における4065個のアクティブオートエンコーダの特徴を徹底的に追跡すると、1393850の下流エッジが得られる。
第2に、8つの三つ子にまたがる3つの冗長性は、冗長性は相互作用順序とともに単調に深まることを示す。
第3に、軌道案内型特徴ステアリングは、層の位置と微分方向との因果関係を確立する。
論文 参考訳(メタデータ) (2026-03-12T13:53:20Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Dual Quaternion SE(3) Synchronization with Recovery Guarantees [18.75848171128639]
本稿では、二元四元数表現を採用し、SE(3)を単位二元四元数上で直接同期する。
スペクトル初期化器はエルミート二元四元数測定行列上の電力法で計算され、次いで二元四元数一般化電力法で計算される。
合成ベンチマークと実世界のマルチスキャン点集合登録実験により、提案したパイプラインは精度と効率の両方を向上することを示した。
論文 参考訳(メタデータ) (2026-01-30T21:24:20Z) - Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition [0.0]
凍結フーリエ基底からスペクトル係数を選択する微分可能なアーキテクチャである階層スペクトル合成を導入する。
我々はこのフレームワークを論理合成に適用し、ブール否定を可能にするカラムサイン変調を追加する。
論文 参考訳(メタデータ) (2026-01-20T13:26:52Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Relative Pose from SIFT Features [50.81749304115036]
基本行列の未知元と向きとスケールに関する新しい線形制約を導出する。
提案した制約は、合成環境における多くの問題と、80000以上の画像ペア上で公開されている実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2022-03-15T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。