論文の概要: CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling
- arxiv url: http://arxiv.org/abs/2604.04250v1
- Date: Sun, 05 Apr 2026 20:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.005575
- Title: CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling
- Title(参考訳): CAWN:自己回帰言語モデリングのための連続音響波ネットワーク
- Authors: Dejan Čugalj, Aleksandar Jevremovic,
- Abstract要約: 完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
- 参考スコア(独自算出の注目度): 46.16066322190728
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern Large Language Models (LLMs) rely on Transformer self-attention, which scales quadratically with sequence length. Recent linear-time alternatives, like State Space Models (SSMs), often suffer from signal degradation over extended contexts. We introduce the Continuous Acoustic Wave Network (CAWN), a fully continuous sequence-mixing architecture. Instead of discrete matrix-based attention, CAWN projects hidden states into multi-headed complex-domain phasors, achieving sequence mixing through a causal, $O(L)$ Phase Accumulation mechanism. To prevent signal degradation over ultra-long contexts, we introduce a dual-gated Selective Phase Resonance mechanism incorporating Frequency-Dependent Retention, Hard-Threshold Gating via Straight-Through Estimation, and a Temporal Syntax Cache to capture short-term local dependencies. We also replace standard dense linear projections with Depth-wise Harmonic Convolutions for optimal spatial frequency mixing, augmented by Block Attention Residuals for depth-wise state routing. Scaled to a 150M-parameter model, CAWN utilizes custom Triton kernels for hardware-efficient, true-complex phase accumulation in float32. Trained via a continuous streaming loop on a 100-Billion-token corpus, the prototype is evaluated at a 5-Billion-token milestone. Empirical evaluations via a Targeted Semantic Retrieval protocol demonstrate robust vocabulary acquisition and extended explicitly learned contextual denoising. By leveraging $O(1)$ state-passing via chunked prefill, the model retrieves targeted information across 2,000,000 tokens while strictly plateauing at 8.72 GB of Peak VRAM, empirically overcoming the $O(L^2)$ context memory wall.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)はトランスフォーマーの自己アテンションに依存しており、シーケンス長で2次スケールする。
状態空間モデル (State Space Models, SSM) のような最近の線形時間代替法は、拡張コンテキストよりも信号の劣化に悩まされることが多い。
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは、行列に基づく離散的な注意の代わりに、多面体複素ドメインファサーに隠された状態を計画し、因果的な$O(L)$相蓄積機構を通じて配列混合を実現する。
超長コンテキスト上での信号劣化を防止するため、周波数依存保持、ストレート・スルー推定によるハード・スレッショルド・ゲーティング、短期的局所的依存関係をキャプチャするテンポラル・シンタクス・キャッシュを組み込んだデュアルゲート選択位相共振機構を導入する。
また、高密度線形射影を奥行き高調波畳み込み法に置き換え、空間周波数の最適混合をブロック注意残差法で拡張し、奥行き状態のルーティングを行う。
150Mパラメータモデルにスケールして、CAWNは独自のトリトンカーネルを使用して、float32でハードウェア効率の良い真の複雑な位相蓄積を行う。
100ビリオントーケンのコーパス上で連続的なストリーミングループを通じてトレーニングされ、プロトタイプは5ビリオントーケンのマイルストーンで評価される。
Targeted Semantic Retrievalプロトコルによる経験的評価は、堅牢な語彙獲得と、明示的に学習された文脈記述の拡張を示している。
チャンクプリフィルによる$O(1)$状態パスを利用することで、2000,000トークンにわたってターゲット情報を検索し、8.72GBのPeak VRAMを厳格に高め、$O(L^2)$コンテキストメモリウォールを実証的に克服する。
関連論文リスト
- The Phasor Transformer: Resolving Attention Bottlenecks on the Unit Circle [0.09229852843814058]
textbfPhasor Transformer ブロックは、単位円多様体 $S1$ 上のシーケンス状態を表すフェーズネイティブな代替である。
これらのブロックを積み重ねると textbfLarge Phasor Model (LPM) が定義される。
その結果,時間列の大規模モデルスケーリングが,決定論的大域的結合を伴う幾何制約位相から生じることを実証し,明確な効率・性能のフロンティアを確立した。
論文 参考訳(メタデータ) (2026-03-18T07:18:41Z) - KoopmanFlow: Spectrally Decoupled Generative Control Policy via Koopman Structural Bias [31.486395926173838]
Generative Control Policies(GCP)は、ロボット操作において大きな可能性を秘めているが、安定なグローバルモーションと高周波局所補正を同時にモデル化するのに苦労している。
クープマンに着想を得た構造的帰納バイアスによって導かれるパラメータ効率の良い生成ポリシーであるクープマンフローを紹介する。
論文 参考訳(メタデータ) (2026-03-14T06:23:07Z) - Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals [8.411477071838592]
本稿では,周波数位置埋め込みと高度なバンド分割アーキテクチャを組み合わせた新しい基礎モデルECHOを提案する。
本手法は,様々な種類の機械信号データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-08-20T13:10:44Z) - Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-30T15:03:36Z) - CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement [5.766499647507758]
さらに、時間周波数(TF)領域における音声強調(SE)のためのコンバータベース計量生成逆ネットワーク(CMGAN)モデルを開発した。
以上の結果から,CMGANは3つの主要な音声強調課題において,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-22T15:50:21Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。