論文の概要: Kathleen: Oscillator-Based Byte-Level Text Classification Without Tokenization or Attention
- arxiv url: http://arxiv.org/abs/2604.07969v1
- Date: Thu, 09 Apr 2026 08:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.805262
- Title: Kathleen: Oscillator-Based Byte-Level Text Classification Without Tokenization or Attention
- Title(参考訳): Kathleen: トークン化や注意を伴わないオシレータベースのバイトレベルテキスト分類
- Authors: George Fountzoulas,
- Abstract要約: Kathleenは、周波数領域処理を使用してraw-8バイトを直接操作するテキスト分類アーキテクチャである。
Kathleen-CleanはIMDBで88.6%、AG Newsで92.3%、SST-2で83.3%を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Kathleen, a text classification architecture that operates directly on raw UTF-8 bytes using frequency-domain processing -- requiring no tokenizer, no attention mechanism, and only 733K parameters. Kathleen introduces three novel components: (1) RecurrentOscillatorBanks -- damped sinusoid convolutions with temporal memory for O(L) sequence processing; (2) an FFT-Rotate Wavetable Encoder that maps all 256 byte values using a single learnable vector (256 floats), replacing conventional embedding tables (65K parameters) while improving accuracy; (3) PhaseHarmonics -- a sinusoidal non-linearity with just 6 learnable phase parameters that our ablation identifies as the single most impactful component (+2.6% accuracy, <0.001% of model parameters). Through comprehensive ablation of a 1.8M-parameter predecessor, we show that frequency-domain components systematically outperform complex cognitive architectures: removing a 560K-parameter bio-inspired framework costs only -0.2%, while removing the 6-parameter PhaseHarmonics costs -2.6%. The resulting Kathleen-Clean achieves 88.6% on IMDB, 92.3% on AG News, and 83.3% on SST-2 -- outperforming a tokenized counterpart with 16x more parameters on IMDB (+1.6%) and AG News (+2.1%). Kathleen processes sequences in O(L) time and memory, enabling byte-level operation at sequence lengths where O(L^2) Transformers exhaust GPU memory.
- Abstract(参考訳): 周波数領域処理を用いて生のUTF-8バイトを直接操作するテキスト分類アーキテクチャであるKathleenは、トークン化を必要とせず、注意機構も無く、733Kパラメータのみを必要とする。Kathleen氏は、(1)O(L)シークエンス処理のために時間メモリで減衰した正弦波の畳み込み、(2)FFT-Rotate Wavetable Encoderで、単一の学習可能なベクトル(256フロート)を用いて256バイトの値をマッピングし、従来の埋め込みテーブル(65Kパラメータ)を置き換える。(3)PhaseHarmonics -- 正弦波非直線性で、6つの学習可能な位相パラメータのみを持つ。
560Kのバイオインスパイアされたフレームワークの除去はわずか0.2%であり、6パラメータのフェーズハーモニクスの除去は-2.6%である。
その結果、Kathleen-Clean は IMDB で88.6%、AG News で92.3%、SST-2 で83.3% を獲得し、IMDB (+1.6%) と AG News (+2.1%) で16倍のパラメータでトークン化された。
KathleenはO(L)時間とメモリでシーケンスを処理し、O(L^2)変換器がGPUメモリを消費するシーケンス長でのバイトレベルの操作を可能にする。
関連論文リスト
- SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression [0.0]
2つの適応圧縮技術は、アルゴリズムの革新とハードウェア対応の最適化を統合するために提案されている。
イベントベースの視覚タスクでは、STTFは平均トークン数を84%削減する。
ANCは低モーションシーンでFLOPを最大90%カットする。
論文 参考訳(メタデータ) (2025-11-23T15:43:00Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [2.1301560294088318]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。