論文の概要: RD-Optimized Trit-Plane Coding of Deep Compressed Image Latent Tensors
- arxiv url: http://arxiv.org/abs/2203.13467v1
- Date: Fri, 25 Mar 2022 06:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 14:07:45.507941
- Title: RD-Optimized Trit-Plane Coding of Deep Compressed Image Latent Tensors
- Title(参考訳): 深部圧縮画像テンソルのRD最適化トリトプレーン符号化
- Authors: Seungmin Jeon and Jae-Han Lee and Chang-Su Kim
- Abstract要約: DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースの画像である。
本稿では,トライトプレーンスライシングとRD優先伝送という,DPICTの2つの重要なコンポーネントを効率的に実装する方法について述べる。
- 参考スコア(独自算出の注目度): 40.86513649546442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DPICT is the first learning-based image codec supporting fine granular
scalability. In this paper, we describe how to implement two key components of
DPICT efficiently: trit-plane slicing and RD-prioritized transmission. In
DPICT, we transform an image into a latent tensor, represent the tensor in
ternary digits (trits), and encode the trits in the decreasing order of
significance. For entropy encoding, we should compute the probability of each
trit, which demands high time complexity in both the encoder and the decoder.
To reduce the complexity, we develop a parallel computing scheme for the
probabilities and describe it in detail with pseudo-codes. Moreover, in this
paper, we compare the trit-plane slicing in DPICT with the alternative
bit-plane slicing. Experimental results show that the time complexity is
reduced significantly by the parallel computing and that the trit-plane slicing
provides better rate-distortion performances than the bit-plane slicing.
- Abstract(参考訳): DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースのイメージコーデックである。
本稿では,トライトプレーンスライシングとRD優先伝送という,DPICTの2つの重要なコンポーネントを効率的に実装する方法について述べる。
DPICTでは、画像を潜時テンソルに変換し、三進数(三進数)のテンソルを表現し、三進数の減少順序でトリットを符号化する。
エントロピー符号化には、エンコーダとデコーダの両方で高速な複雑さを必要とするトリオの確率を計算する必要がある。
複雑性を低減するために,確率の並列計算方式を開発し,擬似符号を用いて詳細に記述する。
さらに,本論文では,DPICTにおけるトライトプレーンスライシングと代替ビットプレーンスライシングを比較した。
実験結果から, 並列計算により時間複雑性が著しく減少し, トリトプレーンスライシングはビットプレーンスライシングよりも高い速度歪み性能が得られることがわかった。
関連論文リスト
- DiTFastAttn: Attention Compression for Diffusion Transformer Models [26.095923502799664]
拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-12T18:00:08Z) - Context-Based Trit-Plane Coding for Progressive Image Compression [31.396712329965005]
トリトプレーン符号化は、深いプログレッシブな画像圧縮を可能にするが、自己回帰的文脈モデルを使用することはできない。
我々は,潜在要素のトライト確率を正確に推定するために,文脈に基づくレート低減モジュールを開発した。
第2に、三面体から部分潜時テンソルを精製する文脈に基づく歪み低減モジュールを開発する。
第三に、デコーダがより優れたレート歪みトレードオフを達成するための再訓練方式を提案する。
論文 参考訳(メタデータ) (2023-03-10T05:46:25Z) - LIT-Former: Linking In-plane and Through-plane Transformers for
Simultaneous CT Image Denoising and Deblurring [22.605286969419485]
本稿では3次元低線量CT像について検討する。
この文脈で様々な深層学習法が開発されたが、一般的には2次元画像に焦点をあて、低線量化と分解能の劣化によりデノナイジングを行う。
従来,高画質3次元CT画像の低放射線化と高速撮像速度の確保が重要であった,平面内脱色と平面内脱色を同時に行う作業はほとんど行われていなかった。
ここでは、平面内と平面内を同時に分割するトランスと、平面内と平面内を同時に接続することを提案する。
論文 参考訳(メタデータ) (2023-02-21T12:43:42Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - DPICT: Deep Progressive Image Compression Using Trit-Planes [36.34865777731784]
Trit-planes (DPICT) アルゴリズムを用いた深部プログレッシブ画像圧縮
解析ネットワークを用いて,画像を潜時テンソルに変換する。
圧縮ビットストリームトリトプレーンにトリトプレーンでエンコードする。
論文 参考訳(メタデータ) (2021-12-12T22:09:33Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - TEASER: Fast and Certifiable Point Cloud Registration [30.19476775410544]
最初の高速かつ堅牢な3Dポイントの登録アルゴリズムは、大量の外れ値の存在下での3Dポイントの登録である。
TEASER++という名前の第二の高速で堅牢な認証翻訳は、大規模なサブプロブレムを解決するために、既成の非コンポーネントを使用する。
論文 参考訳(メタデータ) (2020-01-21T18:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。