論文の概要: PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation
- arxiv url: http://arxiv.org/abs/2512.20687v1
- Date: Mon, 22 Dec 2025 19:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.56775
- Title: PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation
- Title(参考訳): PHOTON:光速・メモリ効率の良い言語生成のための階層的自己回帰モデリング
- Authors: Yuma Ichikawa, Naoya Takagi, Takumi Nakagawa, Yuzi Kanazawa, Akira Sakai,
- Abstract要約: 平面走査を垂直・多解像度コンテキストアクセスに置き換える階層的自己回帰モデルを提案する。
実験の結果,PHOTONはスループット品質のトレードオフに関して,競合するTransformerベースの言語モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 5.553946791700077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers operate as horizontal token-by-token scanners; at each generation step, the model attends to an ever-growing sequence of token-level states. This access pattern increases prefill latency and makes long-context decoding increasingly memory-bound, as KV-cache reads and writes dominate inference throughput rather than arithmetic computation. We propose Parallel Hierarchical Operation for Top-down Networks (PHOTON), a hierarchical autoregressive model that replaces flat scanning with vertical, multi-resolution context access. PHOTON maintains a hierarchy of latent streams: a bottom-up encoder progressively compresses tokens into low-rate contextual states, while lightweight top-down decoders reconstruct fine-grained token representations. Experimental results show that PHOTON is superior to competitive Transformer-based language models regarding the throughput-quality trade-off, offering significant advantages in long-context and multi-query tasks. This reduces decode-time KV-cache traffic, yielding up to $10^{3}\times$ higher throughput per unit memory.
- Abstract(参考訳): トランスフォーマーは水平トークン・バイ・トークンスキャナーとして動作し、各生成ステップでは、モデルが成長を続けるトークンレベル状態のシーケンスに出席する。
このアクセスパターンはプリフィルレイテンシを増大させ、KV-cacheが演算演算よりも推論スループットをリードし、書き込みするので、長期コンテキストのデコーディングがメモリバウンドを増大させる。
平面走査を垂直・多解像度コンテキストアクセスに置き換える階層的自己回帰モデルであるParallel Hierarchical Operation for Top-down Networks (PHOTON)を提案する。
ボトムアップエンコーダはトークンを徐々に低レートの文脈状態に圧縮し、軽量なトップダウンデコーダはきめ細かいトークン表現を再構成する。
実験結果から、PHOTONはスループット品質のトレードオフに関する競合するTransformerベースの言語モデルよりも優れており、長いコンテキストやマルチクエリタスクにおいて大きな利点があることがわかった。
これにより、デコード時のKVキャッシュトラフィックが減少し、単位メモリ当たりのスループットが最大10^{3}\times$高くなる。
関連論文リスト
- AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Freely Long-Thinking Transformer (FraiLT) [0.0]
Freely Long-Thinking Transformer (FraiLT) は、サイズをスケールアップすることなく処理能力を向上させるために設計された改良型トランスモデルである。
FraiLTは再帰的アプローチを採用し、レイヤのサブセットを複数回反復し、繰り返しエンコーディングを導入して、これらのサイクル間の認識を維持する。
合成ストーリーデータセットで評価すると、FraiLTはより大きなモデルよりも優れており、メモリ要求を減らしながら高品質のパフォーマンスを提供する能力を示している。
論文 参考訳(メタデータ) (2024-01-21T23:37:33Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。