論文の概要: Fast and Simplex: 2-Simplicial Attention in Triton
- arxiv url: http://arxiv.org/abs/2507.02754v1
- Date: Thu, 03 Jul 2025 16:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.585275
- Title: Fast and Simplex: 2-Simplicial Attention in Triton
- Title(参考訳): Fast and Simplex: Tritonにおける2-simplicial Attention
- Authors: Aurko Roy, Timothy Chou, Sai Surya Duvvuri, Sijia Chen, Jiecao Yu, Xiaodong Wang, Manzil Zaheer, Rohan Anil,
- Abstract要約: 標準的な点積注意をトリ線形関数に一般化するアーキテクチャである2-simplicial Transformerの使用について検討する。
固定されたトークン予算では、同様の大きさのモデルが、数学、コーディング、推論、論理といったタスクにおいて、ドット積よりも優れています。
- 参考スコア(独自算出の注目度): 30.500203127313576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that training loss scales as a power law with both model size and the number of tokens, and that achieving compute-optimal models requires scaling model size and token count together. However, these scaling laws assume an infinite supply of data and apply primarily in compute-bound settings. As modern large language models increasingly rely on massive internet-scale datasets, the assumption that they are compute-bound is becoming less valid. This shift highlights the need for architectures that prioritize token efficiency. In this work, we investigate the use of the 2-simplicial Transformer, an architecture that generalizes standard dot-product attention to trilinear functions through an efficient Triton kernel implementation. We demonstrate that the 2-simplicial Transformer achieves better token efficiency than standard Transformers: for a fixed token budget, similarly sized models outperform their dot-product counterparts on tasks involving mathematics, coding, reasoning, and logic. We quantify these gains by demonstrating that $2$-simplicial attention changes the exponent in the scaling laws for knowledge and reasoning tasks compared to dot product attention.
- Abstract(参考訳): 最近の研究によると、トレーニング損失は、モデルサイズとトークン数の両方のパワー則としてスケールしており、計算最適化モデルを達成するには、モデルサイズとトークン数を同時にスケーリングする必要がある。
しかし、これらのスケーリング法則はデータの無限の供給を前提としており、主に計算バウンドな設定で適用される。
現代の大規模言語モデルは、ますます大規模なインターネットスケールのデータセットに依存しているため、それらが計算バウンドであるという仮定は、あまり有効ではない。
このシフトは、トークン効率を優先するアーキテクチャの必要性を強調します。
本研究では,Tritonカーネルの効率的な実装を通じて,標準的なドット積注意をトリ線形関数に一般化するアーキテクチャである2-simplicial Transformerの使用について検討する。
2-simplicial Transformerは標準的なTransformerよりも優れたトークン効率を実現することを実証する。固定トークン予算では、同様に、数学、コーディング、推論、論理といったタスクにおいて、ドット積のモデルよりも優れている。
我々は,2ドルの単純注意が,ドット製品よりも知識と推論タスクのスケーリング法則の指数を変化させることを示すことによって,これらの利得を定量化する。
関連論文リスト
- Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality [29.531450446701175]
本稿では, トークン削減は, 大規模生成モデルの時代において, 従来の効率重視の役割を超越すべきであると主張する。
トークンの削減は、より深いマルチモーダル統合とアライメントを促進し、長い入力に対するコヒーレンスを維持し、トレーニングの安定性を高めることができると我々は主張する。
我々は、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性について概説する。
論文 参考訳(メタデータ) (2025-05-23T11:30:30Z) - Plain Transformers Can be Powerful Graph Learners [64.50059165186701]
研究者たちは、Transformerをグラフ学習に移行しようとしたが、ほとんどの高度なGraph Transformerは、普通のTransformerから遠く離れている。
この研究は、普通のTransformerアーキテクチャが強力なグラフ学習者になれることを示した。
論文 参考訳(メタデータ) (2025-04-17T02:06:50Z) - Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。
本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2024-12-23T18:59:21Z) - Higher Order Transformers: Efficient Attention Mechanism for Tensor Structured Data [10.327160288730125]
高次変換器(英: Higher-order Transformer、HOT)は、高次テンソル(英語版)と呼ばれる2つ以上の軸を持つデータを処理するように設計されている。
高次テンソルアテンションに関連する計算問題に対処するために、新しいクロネッカー分解アテンション機構を導入する。
多変量時系列予測と3次元医用画像分類を含む2つの高次元課題に対するHOTの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-04T00:10:47Z) - Towards Neural Scaling Laws for Time Series Foundation Models [63.5211738245487]
我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-16T08:23:39Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。