論文の概要: Real-Time Text Transmission via LLM-Based Entropy Coding over Fixed-Rate Channels
- arxiv url: http://arxiv.org/abs/2605.01991v1
- Date: Sun, 03 May 2026 17:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.03419
- Title: Real-Time Text Transmission via LLM-Based Entropy Coding over Fixed-Rate Channels
- Title(参考訳): 固定レートチャネル上のLLMエントロピー符号化によるリアルタイムテキスト伝送
- Authors: Vishnu Teja Kunde, Jean-Francois Chamberland, Krishna R. Narayanan, Jamison Ebert,
- Abstract要約: Huffmanは、アルゴリズムの遅延をゼロにし、圧縮オーバーヘッドをわずかに抑えながら、過剰にプロビジョンされたチャネルの実践的な選択である。
発見は GPT-2 (124M) と Llama3.2 (3B) の2つの尺度で検証される。
- 参考スコア(独自算出の注目度): 2.3227078506258176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning, prediction, and compression are intimately connected: a model that accurately predicts the next symbol in a sequence can be coupled with a source coder to compress that sequence near its information-theoretic limit. When tokenized characters arriving at a fixed reading pace are encoded into variable-length codewords and streamed over a fixed-rate channel, a queue forms whose per-token delay depends on the mean and variance of the bit lengths and on the coder's algorithmic latency. This paper investigates the compression--delay tradeoff that arises when a causal language model serves as the sequential predictor within a predict-then-code architecture for real-time text transmission. Several coding schemes are compared: Shannon (ideal), Huffman, arithmetic coding, rANS at various block sizes, and gzip. The analysis separates algorithmic delay, inherent to the coder, from computational delay, which shrinks as hardware improves. Huffman is the practical choice for over-provisioned channels, with zero algorithmic delay and modest compression overhead. Arithmetic coding achieves near-optimal compression at the cost of decodability delay. Findings are validated across two scales: GPT-2 (124M) and Llama~3.2 (3B), a twenty-five-fold parameter range. This scaling yields an approximately 38\% reduction in bits per character, effectively over-provisioning the channel and thereby changing which coder is optimal.
- Abstract(参考訳): シーケンス内の次のシンボルを正確に予測するモデルは、ソースコーダと結合して、情報理論の限界付近でそのシーケンスを圧縮することができる。
固定読み上げ速度に到達したトークン化された文字が可変長のコードワードに符号化され、固定レートのチャネルでストリームされると、キューは、ビット長の平均と分散およびコーダのアルゴリズム遅延に依存する。
本稿では、リアルタイムテキスト送信のための予測符号アーキテクチャにおいて、因果言語モデルが逐次予測器として機能するときに発生する圧縮遅延トレードオフについて検討する。
シャノン(イデアル)、ハフマン(英語版)、算術符号化、様々なブロックサイズでのrANS、gzipなどである。
この分析は、ハードウェアの改善に伴って縮小する計算遅延から、コーダ固有のアルゴリズム遅延を分離する。
Huffmanは、アルゴリズムの遅延をゼロにし、圧縮オーバーヘッドをわずかに抑えながら、過剰にプロビジョンされたチャネルの実践的な選択である。
算術的符号化は、解凍性遅延のコストで、ほぼ最適圧縮を達成する。
発見は GPT-2 (124M) と Llama~3.2 (3B) の2つの尺度で検証される。
このスケーリングにより、キャラクタ当たりのビット数が約38\%減少し、チャンネルを効果的にオーバープロビジョンし、どのコーダが最適かを変更できる。
関連論文リスト
- Towards Practical Lossless Neural Compression for LiDAR Point Clouds [84.36825469211375]
高精度な幾何学的詳細の極端に広い範囲は、効率的な文脈モデリングを妨げる。
私たちのフレームワークは2つの軽量モジュールで構成されています。
実験では、リアルタイムに競争力のある圧縮性能を示す。
論文 参考訳(メタデータ) (2026-03-26T10:02:07Z) - Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting [70.75913449565203]
Transformerベースのエンコーダはブロック処理に広く使われている。
本稿では,ブロック処理に適した新しいエンコーダSpralformerを提案する。
実験の結果,Librispeechにおける平均トークン放出遅延は21.6%減少した。
論文 参考訳(メタデータ) (2025-10-01T14:56:45Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。
近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。
ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文 参考訳(メタデータ) (2025-05-19T18:00:00Z) - Estimating the Decoding Failure Rate of Binary Regular Codes Using Iterative Decoding [84.0257274213152]
並列ビットフリップデコーダのDFRを高精度に推定する手法を提案する。
本研究は,本症候群のモデル化およびシミュレーションによる重み比較,第1イテレーション終了時の誤りビット分布の誤検出,復号化復号化率(DFR)について検証した。
論文 参考訳(メタデータ) (2024-01-30T11:40:24Z) - Towards Real-Time Neural Video Codec for Cross-Platform Application
Using Calibration Information [17.141950680993617]
浮動小数点演算によるクロスプラットフォームの計算誤差は、ビットストリームの不正確な復号につながる可能性がある。
符号化と復号処理の計算複雑性が高いことは、リアルタイムのパフォーマンスを達成する上での課題である。
リアルタイムクロスプラットフォームのニューラルビデオは、コンシューマグレードのGPU上で、他のエンコーディングプラットフォームから720Pビデオのビットストリームを効率的に復号することができる。
論文 参考訳(メタデータ) (2023-09-20T13:01:15Z) - A Token-Wise Beam Search Algorithm for RNN-T [3.682821163882332]
本稿では,複数の時間ステップにまたがる共同ネットワークコールをバッチ化する復号ビーム探索アルゴリズムを提案する。
さらに、セグメント上での放射確率の集約は、最も可能性の高いモデル出力を見つけるためのより良い近似と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T07:20:49Z) - Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。
また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文 参考訳(メタデータ) (2022-10-31T07:46:10Z) - Parallel window decoding enables scalable fault tolerant quantum
computation [2.624902795082451]
本稿では,デコード問題を並列化し,ほぼ任意のシンドローム処理速度を実現する手法を提案する。
並列化では、古典的なフィードバックの決定を遅らせる必要があり、論理クロックの速度が遅くなる。
既知のオート・テレポーテーション・ガジェットを使用すれば、キュービットオーバーヘッドの増加と引き換えに、スローダウンを完全に排除することができる。
論文 参考訳(メタデータ) (2022-09-18T12:37:57Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。