論文の概要: Multistage Spatial Context Models for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2302.09263v1
- Date: Sat, 18 Feb 2023 08:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:30:22.333021
- Title: Multistage Spatial Context Models for Learned Image Compression
- Title(参考訳): 学習画像圧縮のための多段空間コンテキストモデル
- Authors: Fangzheng Lin, Heming Sun, Jinming Liu, Jiro Katto
- Abstract要約: 高速デコードとRD性能の両立が可能な多段階空間コンテキストモデルを提案する。
提案手法は,AutoregressiveのRD性能に到達しながら,Checkerboardに匹敵するデコード速度を特徴とする。
- 参考スコア(独自算出の注目度): 19.15884180604451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent state-of-the-art Learned Image Compression methods feature spatial
context models, achieving great rate-distortion improvements over hyperprior
methods. However, the autoregressive context model requires serial decoding,
limiting runtime performance. The Checkerboard context model allows parallel
decoding at a cost of reduced RD performance. We present a series of multistage
spatial context models allowing both fast decoding and better RD performance.
We split the latent space into square patches and decode serially within each
patch while different patches are decoded in parallel. The proposed method
features a comparable decoding speed to Checkerboard while reaching the RD
performance of Autoregressive and even also outperforming Autoregressive.
Inside each patch, the decoding order must be carefully decided as a bad order
negatively impacts performance; therefore, we also propose a decoding order
optimization algorithm.
- Abstract(参考訳): 近年のLearnered Image Compression法では,空間的文脈モデルが特徴的であり,ハイパープライア法よりも高い速度歪み改善を実現している。
しかし、自動回帰コンテキストモデルはシリアルデコードを必要とし、実行時のパフォーマンスを制限します。
CheckerboardコンテキストモデルはRD性能の低下を犠牲にして並列デコードを可能にする。
高速デコードとRD性能の両立が可能な多段階空間コンテキストモデルを提案する。
潜在スペースを正方形のパッチに分割し、各パッチ内で連続的にデコードし、異なるパッチを並列にデコードします。
提案手法は、AutoregressiveのRD性能に到達しつつ、Checkerboardに匹敵するデコード速度を特徴としている。
各パッチ内では、デコード順序が性能に悪影響を及ぼすとして慎重に決定されなければならないため、デコード順序最適化アルゴリズムも提案する。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。
並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。
モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文 参考訳(メタデータ) (2023-06-25T16:29:51Z) - Accelerating Transformer Inference for Translation via Parallel Decoding [2.89306442817912]
自動回帰復号化は機械翻訳(MT)における変圧器の効率を制限する
並列デコーディングアルゴリズムを3つ提示し、異なる言語やモデルでテストする。
論文 参考訳(メタデータ) (2023-05-17T17:57:34Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Split Hierarchical Variational Compression [21.474095984110622]
可変オートエンコーダ(VAE)は、画像データセットの圧縮を行う上で大きな成功を収めている。
SHVCは、ピクセルごとの自己回帰と完全に分解された確率モデルとの一般化を可能にする、効率的な自己回帰的サブピクセル畳み込みを導入している。
論文 参考訳(メタデータ) (2022-04-05T09:13:38Z) - Checkerboard Context Model for Efficient Learned Image Compression [6.376339829493938]
学習された画像圧縮のために、オートレグレッシブコンテキストモデルは、レート歪み(RD)のパフォーマンスを改善するのに効果的である。
本稿では,並列化可能なチェッカーボードコンテキストモデル(CCM)を提案する。
実験では,復号処理を40回以上高速化し,ほぼ同じ速度歪み性能で計算効率を大幅に向上させた。
論文 参考訳(メタデータ) (2021-03-29T03:25:41Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。