論文の概要: Rate-Distortion Optimization for Transformer Inference
- arxiv url: http://arxiv.org/abs/2601.22002v1
- Date: Thu, 29 Jan 2026 17:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.030157
- Title: Rate-Distortion Optimization for Transformer Inference
- Title(参考訳): 変圧器推論における速度歪み最適化
- Authors: Anderson de Andrade, Alon Harell, Ivan V. Bajić,
- Abstract要約: トランスフォーマーは多くのタスクにおいて優れたパフォーマンスを達成するが、推論中に大量の計算とメモリ要求を課す。
本稿では, 圧縮の損失を抑えるために, 圧縮の速度歪みに基づく基本的フレームワークを導入し, 圧縮の精度とトレードオフを明示するコンパクトエンコーディングを学習する。
- 参考スコア(独自算出の注目度): 1.5378391391800512
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers achieve superior performance on many tasks, but impose heavy compute and memory requirements during inference. This inference can be made more efficient by partitioning the process across multiple devices, which, in turn, requires compressing its intermediate representations. In this work, we introduce a principled rate-distortion-based framework for lossy compression that learns compact encodings that explicitly trade off bitrate against accuracy. Experiments on language benchmarks show that the proposed codec achieves substantial savings with improved accuracy in some cases, outperforming more complex baseline methods. We characterize and analyze the rate-distortion performance of transformers, offering a unified lens for understanding performance in representation coding. This formulation extends information-theoretic concepts to define the gap between rate and entropy, and derive some of its bounds. We further develop probably approximately correct (PAC)-style bounds for estimating this gap. For different architectures and tasks, we empirically demonstrate that their rates are driven by these bounds, adding to the explainability of the formulation.
- Abstract(参考訳): トランスフォーマーは多くのタスクにおいて優れたパフォーマンスを達成するが、推論中に大量の計算とメモリの要求を課す。
この推論は、複数のデバイスにまたがってプロセスを分割することで、より効率的にできる。
本研究では,ビットレートを精度に対して明示的にトレードオフするコンパクトエンコーディングを学習する,損失圧縮のための原理的レート歪みに基づくフレームワークを提案する。
言語ベンチマークの実験では、提案したコーデックは、いくつかのケースでは精度が向上し、より複雑なベースライン法よりも優れた精度で大幅な節約を実現している。
我々は変換器の速度歪み特性を特徴付け解析し、表現符号化の性能を理解するための統一レンズを提供する。
この定式化は、情報理論の概念を拡張して、レートとエントロピーのギャップを定義し、その境界の一部を導出する。
我々は、このギャップを推定するために、おそらく略正(PAC)スタイルのバウンダリをさらに発展させる。
異なるアーキテクチャやタスクに対して、それらのレートがこれらの境界によって駆動されることを実証的に証明し、定式化の説明可能性を高める。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Fast Data-independent KLT Approximations Based on Integer Functions [0.0]
Karhunen-Loeve変換(KLT)は確立された離散変換であり、データのデコリレーションと次元減少の最適特性を示す。
本稿では、様々なラウンドオフ関数を用いて、低複雑さでデータに依存しないKLT近似のカテゴリを紹介する。
提案した変換は,古典的性能尺度を考慮した正確なKLTおよび近似と比較すると良好に動作する。
論文 参考訳(メタデータ) (2024-10-11T20:05:05Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation [5.238765582868391]
本稿では,オクターブの畳み込みを利用して,遅延表現を高分解能 (HR) と低分解能 (LR) に分解する多分解能画像圧縮フレームワークを提案する。
実験結果から,本手法は,最先端の学習画像圧縮法と比較して,復号時間を約73.35 %,93.44 %削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-07T08:21:52Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - The Rate-Distortion-Accuracy Tradeoff: JPEG Case Study [30.84385779593074]
JPEG圧縮標準における量子化テーブルの設計に焦点をあてる。
連続的な最適化を通じて、これらのテーブルの新たな最適チューニングを提供する。
本報告では,これらのテーブルの簡易かつ簡易な変更による性能向上について報告する。
論文 参考訳(メタデータ) (2020-08-03T01:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。