論文の概要: Content-aware Masked Image Modeling Transformer for Stereo Image
Compression
- arxiv url: http://arxiv.org/abs/2403.08505v1
- Date: Wed, 13 Mar 2024 13:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:10:53.993613
- Title: Content-aware Masked Image Modeling Transformer for Stereo Image
Compression
- Title(参考訳): ステレオ画像のためのコンテンツ対応マスド画像モデリング変換器
圧縮
- Authors: Xinjie Zhang, Shenyuan Gao, Zhening Liu, Xingtong Ge, Dailan He,
Tongda Xu, Yan Wang, Jun Zhang
- Abstract要約: 本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
実験により,本フレームワークは2つのステレオ画像データセット上で,最先端の速度歪み性能を実現することが示された。
- 参考スコア(独自算出の注目度): 13.027682550725334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing learning-based stereo image codec adopt sophisticated transformation
with simple entropy models derived from single image codecs to encode latent
representations. However, those entropy models struggle to effectively capture
the spatial-disparity characteristics inherent in stereo images, which leads to
suboptimal rate-distortion results. In this paper, we propose a stereo image
compression framework, named CAMSIC. CAMSIC independently transforms each image
to latent representation and employs a powerful decoder-free Transformer
entropy model to capture both spatial and disparity dependencies, by
introducing a novel content-aware masked image modeling (MIM) technique. Our
content-aware MIM facilitates efficient bidirectional interaction between prior
information and estimated tokens, which naturally obviates the need for an
extra Transformer decoder. Experiments show that our stereo image codec
achieves state-of-the-art rate-distortion performance on two stereo image
datasets Cityscapes and InStereo2K with fast encoding and decoding speed.
- Abstract(参考訳): 既存の学習ベースステレオ画像コーデックは、単一の画像コーデックから派生した単純なエントロピーモデルを用いて、遅延表現を符号化する。
しかし,これらのエントロピーモデルでは,ステレオ画像に固有の空間差特性を効果的にとらえることに苦慮し,最適速度歪みが生じる。
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは、各画像を遅延表現に独立に変換し、新しいコンテンツ対応マスク画像モデリング(MIM)技術を導入し、空間的および不均一な依存関係を捕捉する強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
我々のコンテンツ対応MIMは、事前情報と推定トークンとの双方向の効率的な対話を容易にするため、トランスフォーマーデコーダの追加は当然不要である。
実験により,我々のステレオ画像コーデックは,2つのステレオ画像データセットであるCityscapesとInStereo2Kの高速符号化と復号速度で,最先端の速度歪み性能を実現することが示された。
関連論文リスト
- Stereo Image Coding for Machines with Joint Visual Feature Compression [69.28382442498408]
本稿では,機械用ステレオ画像符号化(SICM)について述べる。
SICMには,機械ビジョン指向ステレオ特徴圧縮ネットワーク (MVSFC-Net) が提案されている。
提案したMVSFC-Netは,3次元視覚タスクの性能だけでなく,圧縮効率も優れている。
論文 参考訳(メタデータ) (2025-02-20T01:46:17Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Image and Video Tokenization with Binary Spherical Quantization [36.850958591333836]
バイナリ球面量子化(BSQ)を用いたトランスフォーマベース画像およびビデオトークン化器を提案する。
BSQは、高次元の視覚的埋め込みを低次元の超球面に投影し、二値量子化を適用する。
我々のトークンライザは、可変長動画を入力としてサポートするために、単純なブロックワイズ因果マスキングを備えたトランスフォーマーエンコーダとデコーダを使用する。
論文 参考訳(メタデータ) (2024-06-11T17:59:53Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - ECSIC: Epipolar Cross Attention for Stereo Image Compression [5.024813922014978]
ECSICは,2つのステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮において,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-18T11:46:31Z) - Neural Distributed Image Compression with Cross-Attention Feature
Alignment [1.2234742322758418]
一対のステレオ画像は、重なり合う視野を持ち、同期および校正された一対のカメラによってキャプチャされる。
1つの画像は圧縮・送信され、もう1つの画像はデコーダでのみ利用できると仮定する。
提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。
論文 参考訳(メタデータ) (2022-07-18T10:15:04Z) - Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。
各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文 参考訳(メタデータ) (2022-07-09T19:07:43Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。