論文の概要: Caracal: Causal Architecture via Spectral Mixing
- arxiv url: http://arxiv.org/abs/2605.00292v2
- Date: Thu, 07 May 2026 01:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.289268
- Title: Caracal: Causal Architecture via Spectral Mixing
- Title(参考訳): Caracal: スペクトルミキシングによる因果アーキテクチャ
- Authors: Bingzheng Gan, Tianyi Zhang, Yusu Li, Jing Huang, Wei Shi, Yangkai Ding, Tao Yu,
- Abstract要約: Caracalはパラメータ効率の高いO(L log(L)) Multi-Head Fourier (MHF)モジュールに置き換える新しいアーキテクチャである。
我々は、Fast Fourier Transform (FFT) を用いて、両方のボトルネックに本質的に対処する。
ハードウェア固有の実装に依存する効率的なモデルとは異なり、私たちは標準ライブラリ演算子を使用します。
- 参考スコア(独自算出の注目度): 11.904784955484857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scalability of Large Language Models to long sequences is hindered by the quadratic cost of attention and the limitations of positional encodings. To address these, we introduce Caracal, a novel architecture that replaces attention with a parameter-efficient, O(L log(L)) Multi-Head Fourier (MHF) module. Our contributions are threefold: (1) We leverage the Fast Fourier Transform (FFT) for sequence mixing, inherently addressing both bottlenecks mentioned above. (2) We apply a frequency-domain causal masking technique that enforces autoregressive capabilities via asymmetric padding and truncation, overcoming a critical barrier for Fourier-based generative models. (3) Unlike efficient models relying on hardware-specific implementations (e.g., Mamba), we uses standard library operators. This ensures robust portability, eliminating common deployment barriers. Evaluations demonstrate that Caracal performs competitively with Transformer and SSM baselines, offering a scalable and simple pathway for efficient long-sequence modeling. Code is available in Appendix.
- Abstract(参考訳): 大規模言語モデルの長い列への拡張性は、注意の二次的コストと位置符号化の限界によって妨げられる。
これらの問題に対処するために,パラメータ効率の高いO(L log(L)) Multi-Head Fourier (MHF)モジュールに注目を置き換える新しいアーキテクチャであるCaracalを紹介する。
1)Fast Fourier Transform(FFT)をシーケンスミキシングに利用し、上記の2つのボトルネックに本質的に対処します。
2) 周波数領域の因果マスキング手法を適用し, 非対称なパディングとトランケーションにより自己回帰機能を強制し, フーリエ生成モデルにおいて重要な障壁を克服する。
(3) ハードウェア固有の実装(例:Mamba)に依存した効率的なモデルとは異なり、我々は標準ライブラリ演算子を使用します。
これにより、ロバストなポータビリティが保証され、一般的なデプロイメント障壁が排除される。
評価の結果、CaracalはTransformerやSSMベースラインと競合して動作し、効率的なロングシーケンスモデリングのためのスケーラブルでシンプルな経路を提供する。
コードはAppendixで入手できる。
関連論文リスト
- Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator [36.66799002929583]
トランスモデルは、計算的に要求されることが知られており、長いシーケンスでは不当にコストがかかる。
本稿では,シークエンスにおける冗長性を段階的に除去する,シンプルかつ効果的なFourier Transformerを提案する。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。