Fugu-MT 論文翻訳(概要): Content-aware Masked Image Modeling Transformer for Stereo Image Compression

論文の概要: Content-aware Masked Image Modeling Transformer for Stereo Image Compression

arxiv url: http://arxiv.org/abs/2403.08505v2
Date: Wed, 20 Mar 2024 02:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 21:18:47.904594
Title: Content-aware Masked Image Modeling Transformer for Stereo Image Compression
Title（参考訳）: ステレオ画像圧縮のためのコンテンツ対応マスド画像モデリング変換器
Authors: Xinjie Zhang, Shenyuan Gao, Zhening Liu, Jiawei Shao, Xingtong Ge, Dailan He, Tongda Xu, Yan Wang, Jun Zhang,
Abstract要約: 本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。 CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。実験により,本フレームワークは2つのステレオ画像データセット上で,最先端の速度歪み性能を実現することが示された。
参考スコア（独自算出の注目度）: 15.819672238043786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing learning-based stereo image codec adopt sophisticated transformation with simple entropy models derived from single image codecs to encode latent representations. However, those entropy models struggle to effectively capture the spatial-disparity characteristics inherent in stereo images, which leads to suboptimal rate-distortion results. In this paper, we propose a stereo image compression framework, named CAMSIC. CAMSIC independently transforms each image to latent representation and employs a powerful decoder-free Transformer entropy model to capture both spatial and disparity dependencies, by introducing a novel content-aware masked image modeling (MIM) technique. Our content-aware MIM facilitates efficient bidirectional interaction between prior information and estimated tokens, which naturally obviates the need for an extra Transformer decoder. Experiments show that our stereo image codec achieves state-of-the-art rate-distortion performance on two stereo image datasets Cityscapes and InStereo2K with fast encoding and decoding speed.
Abstract（参考訳）: 既存の学習ベースステレオ画像コーデックは、単一の画像コーデックから派生した単純なエントロピーモデルを用いて、遅延表現を符号化する。しかし,これらのエントロピーモデルでは,ステレオ画像に固有の空間差特性を効果的にとらえることに苦慮し,最適速度歪みが生じる。本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。 CAMSICは、各画像を遅延表現に独立に変換し、新しいコンテンツ対応マスク画像モデリング(MIM)技術を導入し、空間的および不均一な依存関係を捕捉する強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。我々のコンテンツ対応MIMは、事前情報と推定トークンとの双方向の効率的な対話を容易にするため、トランスフォーマーデコーダの追加は当然不要である。実験により,我々のステレオ画像コーデックは,2つのステレオ画像データセットであるCityscapesとInStereo2Kの高速符号化と復号速度で,最先端の速度歪み性能を実現することが示された。

関連論文リスト

Adaptive 1D Video Diffusion Autoencoder [44.70149252636057]
適応型1次元符号化と拡散型デコードのためのトランスフォーマベースのフレームワークである1次元拡散ビデオ自動符号化(One-DVA)を提案する。 1-DVAは3D-CNN VAEと同等の性能を同じ圧縮比で再現する。さらに、生成過程によって生じる人工物を軽減するために、生成モデルのためのOne-DVA潜伏分布を規則化し、デコーダを微調整する。
論文参考訳（メタデータ） (2026-02-04T05:11:12Z)
Stereo Image Coding for Machines with Joint Visual Feature Compression [69.28382442498408]
本稿では,機械用ステレオ画像符号化(SICM)について述べる。 SICMには,機械ビジョン指向ステレオ特徴圧縮ネットワーク (MVSFC-Net) が提案されている。提案したMVSFC-Netは,3次元視覚タスクの性能だけでなく,圧縮効率も優れている。
論文参考訳（メタデータ） (2025-02-20T01:46:17Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model [11.959608742884408]
BiSICは対称ステレオ画像圧縮アーキテクチャである。本研究では,局所的な特徴を捉え,グローバルな特徴を活用するために双方向の注意ブロックを組み込む3次元畳み込みに基づくバックボーンを提案する。提案するBiSICは,従来の画像/ビデオ圧縮規格より優れている。
論文参考訳（メタデータ） (2024-07-15T11:36:22Z)
Image and Video Tokenization with Binary Spherical Quantization [36.850958591333836]
バイナリ球面量子化(BSQ)を用いたトランスフォーマベース画像およびビデオトークン化器を提案する。 BSQは、高次元の視覚的埋め込みを低次元の超球面に投影し、二値量子化を適用する。我々のトークンライザは、可変長動画を入力としてサポートするために、単純なブロックワイズ因果マスキングを備えたトランスフォーマーエンコーダとデコーダを使用する。
論文参考訳（メタデータ） (2024-06-11T17:59:53Z)
MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文参考訳（メタデータ） (2024-02-26T17:11:11Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
ECSIC: Epipolar Cross Attention for Stereo Image Compression [5.024813922014978]
ECSICは,2つのステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮において,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-18T11:46:31Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文参考訳（メタデータ） (2022-09-19T13:26:51Z)
Neural Distributed Image Compression with Cross-Attention Feature Alignment [1.2234742322758418]
一対のステレオ画像は、重なり合う視野を持ち、同期および校正された一対のカメラによってキャプチャされる。 1つの画像は圧縮・送信され、もう1つの画像はデコーダでのみ利用できると仮定する。提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。
論文参考訳（メタデータ） (2022-07-18T10:15:04Z)
Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文参考訳（メタデータ） (2022-07-09T19:07:43Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文参考訳（メタデータ） (2021-12-17T03:28:14Z)
Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。 TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文参考訳（メタデータ） (2021-11-12T13:13:20Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。