論文の概要: Kan Extension Transformers: A Categorical Unification of Attention, Diffusion, and Predict-Detach Self-Conditioning
- arxiv url: http://arxiv.org/abs/2605.27259v1
- Date: Tue, 26 May 2026 16:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.462074
- Title: Kan Extension Transformers: A Categorical Unification of Attention, Diffusion, and Predict-Detach Self-Conditioning
- Title(参考訳): Kan Extension Transformers: 注意・拡散・予測決定のカテゴリ統合
- Authors: Sridhar Mahadevan,
- Abstract要約: Kan Extension Transformer (KET)は、Transformer実装の多種多様なグループのための統一的な分類フレームワークである。
厳密な因果関係と予測決定条件によって異なる12種類のTransformer実装の総合的な実験的検証を含む。
- 参考スコア(独自算出の注目度): 1.3295383263113112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Kan Extension Transformers (KETs) as a unifying categorical framework for a diverse group of Transformer implementations. The core claim is that a Transformer layer can be viewed as a weighted structured extension operator: standard attention is the singleton-neighborhood case, Geometric Transformer style incidence mixing is a sparse edge-restricted case, and KET is the higher-order simplicial case. This lens also clarifies a bridge to diffusion-style completion. When the extension operator acts on detached predictive carriers instead of teacher-forced hidden states, it becomes a valid self-conditioning mechanism that exposes noncausal structure without leaking gold future tokens. We include a comprehensive experimental validation of 12 different Transformer implementations varying across strict-causal and predict-detach regimes on Penn Treebank, WikiText-2, and WikiText-103. In the strict-causal setting, quadratic KET is the strongest model among the compared causal architectures on WikiText-2 and WikiText-103. Across all datasets, however, the largest gains come from the predict-detach regime rather than from changing the neighborhood family alone.
- Abstract(参考訳): 多様なトランスフォーマー実装群を対象とした統合分類フレームワークとして,Kan Extension Transformer (KET)を提案する。
標準の注意はシングルトン近傍のケース、幾何学的トランスフォーマースタイルの入射混合は粗いエッジ制限のケース、KETは高階の単純なケースである。
このレンズはまた拡散式完成への橋渡しを明確化する。
拡張演算子が教師に強制された隠された状態の代わりに分離された予測キャリアに作用すると、金の将来のトークンを漏らさずに非因果構造を露呈する有効な自己条件機構となる。
我々は、Penn Treebank, WikiText-2, WikiText-103上で、厳密な因果関係と予測要因の異なる12種類のTransformer実装の総合的な実験的検証を含む。
厳密な因果的設定では、KETはWikiText-2とWikiText-103の比較因果的アーキテクチャの中で最強のモデルである。
しかし、すべてのデータセットにおいて、最大の利益は、近隣の家族だけを変えることよりも、予測切り離しによるものである。
関連論文リスト
- A Boltzmann-machine-enhanced Transformer For DNA Sequence Classification [0.8711791966428426]
DNA配列分類のためのボルツマン機械エンハンストランスを提案する。
このモデルは、遅延接続を表すために構造化されたバイナリゲーティング変数を導入し、クエリキー接続で制約する。
トレーニング中、分類とエネルギー損失を共同で最適化し、正確な予測を行うようモデルに促す。
論文 参考訳(メタデータ) (2026-03-27T14:32:37Z) - YuriiFormer: A Suite of Nesterov-Accelerated Transformers [62.40952219538543]
本稿では,トークン埋め込みに作用する最適化アルゴリズムの繰り返しとして,トランスフォーマー層を解釈する変分フレームワークを提案する。
この観点では、自己注意は相互作用エネルギーの勾配ステップを実装し、層はポテンシャルエネルギーの勾配更新に対応する。
標準のGPT型変圧器は、この2つのエネルギーの間でLie-Trotterスプリッティングによって実装された複合目的物のバニラ勾配降下として出現する。
論文 参考訳(メタデータ) (2026-01-30T18:06:21Z) - From Scaling to Structured Expressivity: Rethinking Transformers for CTR Prediction [14.997545091069894]
クリックスルーレート(CTR)予測のためのディープモデルは、しばしば急速に減少するリターンを示す。
我々は根本原因を構造上のミスアライメントとみなしている。
本研究ではフィールド・アウェア・トランスフォーマー(FAT)について述べる。
論文 参考訳(メタデータ) (2025-11-15T07:55:50Z) - Selective Induction Heads: How Transformers Select Causal Structures In Context [50.09964990342878]
因果構造を扱うトランスフォーマーの能力を示す新しいフレームワークを提案する。
我々のフレームワークは、遷移確率を固定しつつ、ラグの異なるマルコフ鎖をインターリーブすることで因果構造を変化させる。
この設定は、コンテクスト内で正しい因果構造を選択できる新しい回路である選択誘導ヘッド(Selective induction Heads)を形成する。
論文 参考訳(メタデータ) (2025-09-09T23:13:41Z) - Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens [23.737606860443705]
本研究では, ハイジャック攻撃に対する変換器における文脈内学習の対角的堅牢性について検討する。
GPT-2アーキテクチャを持つ線形変圧器と変圧器の両方がこのようなハイジャック攻撃に対して脆弱であることを示す。
このような攻撃に対する敵の堅牢性は、敵の訓練によって著しく改善される。
論文 参考訳(メタデータ) (2024-11-07T21:25:58Z) - Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。