論文の概要: Geometric Attention: A Regime-Explicit Operator Semantics for Transformer Attention
- arxiv url: http://arxiv.org/abs/2601.11618v1
- Date: Sat, 10 Jan 2026 13:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.799507
- Title: Geometric Attention: A Regime-Explicit Operator Semantics for Transformer Attention
- Title(参考訳): Geometric Attention: Transformer AttentionのためのRegime-Explicit Operator Semantics
- Authors: Luis Rosario Freytes,
- Abstract要約: Geometric Attention (GA) は4つの独立した入力によって注意層を指定する。
GAはマルチヘッド/ミックスカーネル、プランベースのアンカー、一元演算子を明示的なレギュレーション選択としてサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric Attention (GA) specifies an attention layer by four independent inputs: a finite carrier (what indices are addressable), an evidence-kernel rule (how masked proto-scores and a link induce nonnegative weights), a probe family (which observables are treated as admissible), and an anchor/update rule (which representative kernel is selected and how it is applied). Probe families induce an operational equivalence relation on kernels and therefore a gauge; anchors select representatives relative to that probe. Under a scalar relational-work representation and a multiplicative compositionality law for evidence, the admissible link family is exponential, yielding Gibbs weights; with row anchoring this includes the softmax kernel family as a subregime. After quotienting unary row/column score fields, the remaining interaction component admits a canonical rank-r normal form (Eckart-Young/SVD); dot-product score charts implement the corresponding low-rank interaction regime. Fixing the carrier and extensionalizing the update yields the standard fixed-token Transformer attention operator; allowing carrier updates yields adaptive-carrier and staged-depth regimes. The operator language also supports multihead/mixed kernels, plan-based anchors (e.g., entropic OT/Sinkhorn), and unary operators (e.g., FFN-style fields) as explicit regime choices. This separates invariant structure from modeling choice, enabling principled comparison and extension of attention mechanisms, and attention-based architectures.
- Abstract(参考訳): 幾何学的注意 (Geometric Attention, GA) は、有限キャリア (indices is addressable) 、エビデンス・カーネルルール (skowed proto-scores) 、プローブファミリー (observables) 、アンカー/更新ルール (intainer/update rule) の4つの独立した入力で注意層を指定する。
プローブ族は、カーネルとゲージの操作的等価関係を誘導し、アンカーはそのプローブに対する代表を選別する。
証拠に対するスカラーリレーショナルワークの表現と乗法的構成法則の下では、許容されるリンク族は指数関数的であり、ギブス重みを生じる。
単行/カラムスコアフィールドを引用した後、残りの相互作用成分は標準ランクr正規形式(Eckart-Young/SVD)を許容する。
キャリアを固定し、アップデートを拡張することで、標準の固定トークントランスフォーマーアテンション演算子が得られる。
演算言語はまた、マルチヘッド/ミックスカーネル、プランベースのアンカー(例えば、エントロピーOT/シンクホーン)、一元演算子(例えば、FFNスタイルのフィールド)を明示的な規則選択としてサポートする。
これにより、不変構造とモデリング選択を分離し、注意機構と注意に基づくアーキテクチャの原則的な比較と拡張を可能にします。
関連論文リスト
- Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds [0.4779196219827507]
本研究では,トランスフォーマーアテンションヘッドにおいて,クロスエントロピートレーニングがアテンションスコアとバリューベクターをいかに再帰させるかを示す。
私たちの中核的な成果は、注目スコアに対する強調に基づくルーティング法です。
この結合された特殊化は、2時間規模のEMプロシージャのように振る舞うことを示す。
論文 参考訳(メタデータ) (2025-12-27T05:31:44Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Operator Systems Generated by Projections [3.8073142980733]
線形関係の集合を満たす有限個の射影によって生成される作用素系の族と$k$-AOU空間を構築する。
線形関係を量子相関理論から非シグナリング関係とすることで、順序付きベクトル空間の階層を量子相関集合の階層に双対的に得る。
論文 参考訳(メタデータ) (2023-02-25T01:33:39Z) - Transformer for Partial Differential Equations' Operator Learning [0.0]
演算子変換器(OFormer)と呼ばれるデータ駆動型演算子学習のための注意ベースのフレームワークを提案する。
我々のフレームワークは、自己注意、クロスアテンション、および一組のポイントワイド多層パーセプトロン(MLP)に基づいて構築されている。
論文 参考訳(メタデータ) (2022-05-26T23:17:53Z) - Frame Averaging for Invariant and Equivariant Network Design [50.87023773850824]
フレーム平均化(FA)は、既知の(バックボーン)アーキテクチャを新しい対称性タイプに不変あるいは同変に適応するためのフレームワークである。
FAモデルが最大表現力を持つことを示す。
我々は,新しいユニバーサルグラフニューラルネット(GNN),ユニバーサルユークリッド運動不変点クラウドネットワーク,およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:05:23Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Conditional Self-Attention for Query-based Summarization [49.616774159367516]
条件依存モデリング用に設計されたニューラルネットワークモジュールであるテキスト条件自己アテンション(CSA)を提案する。
DebatepediaとHotpotQAベンチマークデータセットの実験は、CSAがバニラトランスフォーマーを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-18T02:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。