論文の概要: HyperMLP: An Integrated Perspective for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2602.12601v1
- Date: Fri, 13 Feb 2026 04:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.843559
- Title: HyperMLP: An Integrated Perspective for Sequence Modeling
- Title(参考訳): HyperMLP:シーケンスモデリングの総合的展望
- Authors: Jiecheng Lu, Shihao Yang,
- Abstract要約: 自己注意は、しばしば確率的なクエリキーのルックアップと見なされ、正規化された注意点と固定された位置意味論を保持する設計を動機付けている。
自己回帰型アテンションヘッドは、文脈履歴から重みがインスタンス化される動的2層と見なすことができる。
空間とシーケンス空間の両方で特徴混合を学習するHyperMLPとHyperGLUを導入し,時間的混合を自己回帰的意味論と整合させるために,リバースオフセット(ラグ)レイアウトを用いる。
- 参考スコア(独自算出の注目度): 5.790131419057591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention is often viewed as probabilistic query-key lookup, motivating designs that preserve normalized attention scores and fixed positional semantics. We advocate a simpler and more unified perspective: an autoregressive attention head can be viewed as a dynamic two-layer MLP whose weights are instantiated from the context history. From this view, attention scores form an ever-growing hidden representation, and standard MLP activations such as ReLU or GLU naturally implement input-conditioned selection over a context-dependent memory pool rather than a probability distribution. Based on this formulation, we introduce HyperMLP and HyperGLU, which learn dynamic mixing in both feature space and sequence space, using a reverse-offset (lag) layout to align temporal mixing with autoregressive semantics. We provide theoretical characterizations of the expressivity and implications of this structure, and empirically show that HyperMLP/HyperGLU consistently outperform strong softmax-attention baselines under matched parameter budgets.
- Abstract(参考訳): 自己注意は、しばしば確率的なクエリキーのルックアップと見なされ、正規化された注意点と固定された位置意味論を保持する設計を動機付けている。
自己回帰型アテンションヘッドは、文脈履歴から重みがインスタンス化される動的2層MLPと見なすことができる。
この観点から、アテンションスコアは増加し続ける隠れ表現を形成し、ReLUやGLUのような標準のMLPアクティベーションは、確率分布ではなく、コンテキスト依存メモリプール上の入力条件の選択を自然に実装する。
この定式化に基づいて,機能空間とシーケンス空間の両方で動的混合を学習するHyperMLPとHyperGLUを導入する。
本稿では,この構造の表現性と意味を理論的に評価し,HyperMLP/HyperGLUが一致したパラメータ予算の下で,強いソフトマックス-アテンションベースラインを一貫して上回っていることを実証的に示す。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - State Rank Dynamics in Linear Attention LLMs [37.607046806053035]
州の階級階層化は、線形アテンションヘッド間で異なるスペクトル分岐によって特徴づけられる。
低ランクの頭部はモデル推論に欠かせないが、高ランクの頭部は顕著な冗長性を示す。
我々は,KVキャッシュのオーバーヘッドを38.9%削減し,モデル精度を大きく維持するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
論文 参考訳(メタデータ) (2026-02-02T15:00:42Z) - Relaxing Positional Alignment in Masked Diffusion Language Models [6.511565218210195]
マスケード拡散言語モデル(MDLM)は、支配的な自己回帰的アプローチに代わる有望な代替手段として登場した。
厳密な位置予測によってMDLMの復号化がトークンの誤認識に非常に敏感になることを示す。
本手法は広く使われているMDLMモデルに適用し、5つのオープンエンドテキスト生成ベンチマークで実験を行う。
論文 参考訳(メタデータ) (2026-01-30T13:09:21Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Multiscale Aggregated Hierarchical Attention (MAHA): A Game Theoretic and Optimization Driven Approach to Efficient Contextual Modeling in Large Language Models [0.0]
マルチスケール集約階層的注意(MAHA)は、階層的分解と数学的に厳密な集約を通じて注意機構を再構築する新しいアーキテクチャフレームワークである。
MAHAは、入力シーケンスを学習可能なダウンサンプリング演算子を介して階層スケールに動的に分割する。
実験的なFLOP解析により,4096のシークエンス長で計算コストが81%削減されたことが確認された。
論文 参考訳(メタデータ) (2025-12-16T21:27:21Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Aggregation-aware MLP: An Unsupervised Approach for Graph Message-passing [10.93155007218297]
AMLP"は、アグリゲーション関数を直接作成することから適応アグリゲーションへとパラダイムをシフトする、教師なしのフレームワークである。
提案手法は2つの重要なステップから構成される: まず、高次グルーピング効果を促進するグラフ再構成を利用する。
論文 参考訳(メタデータ) (2025-07-27T04:52:55Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。