論文の概要: Efficient Masked Image Compression with Position-Indexed Self-Attention
- arxiv url: http://arxiv.org/abs/2504.12923v1
- Date: Thu, 17 Apr 2025 13:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:46.812094
- Title: Efficient Masked Image Compression with Position-Indexed Self-Attention
- Title(参考訳): 位置付き自己注意による効率的なマスケ画像圧縮
- Authors: Chengjie Dai, Tiantian Song, Hui Tang, Fangdong Chen, Bowei Yang, Guanghua Song,
- Abstract要約: 位置インデクシングによる自己アテンション機構に基づく画像圧縮手法を提案する。
既存の意味構造圧縮法と比較して,本手法は計算コストを大幅に削減することができる。
- 参考スコア(独自算出の注目度): 6.64044416324419
- License:
- Abstract: In recent years, image compression for high-level vision tasks has attracted considerable attention from researchers. Given that object information in images plays a far more crucial role in downstream tasks than background information, some studies have proposed semantically structuring the bitstream to selectively transmit and reconstruct only the information required by these tasks. However, such methods structure the bitstream after encoding, meaning that the coding process still relies on the entire image, even though much of the encoded information will not be transmitted. This leads to redundant computations. Traditional image compression methods require a two-dimensional image as input, and even if the unimportant regions of the image are set to zero by applying a semantic mask, these regions still participate in subsequent computations as part of the image. To address such limitations, we propose an image compression method based on a position-indexed self-attention mechanism that encodes and decodes only the visible parts of the masked image. Compared to existing semantic-structured compression methods, our approach can significantly reduce computational costs.
- Abstract(参考訳): 近年,高次視覚タスクの画像圧縮が研究者の注目を集めている。
画像中のオブジェクト情報は、背景情報よりも下流タスクにおいてはるかに重要な役割を担っていることを考えると、ビットストリームを意味的に構造化し、これらのタスクに必要な情報のみを選択的に送信し、再構成することを提案する研究もある。
しかし、これらの手法は符号化後のビットストリームを構成するため、符号化された情報の多くは送信されないが、符号化プロセスは画像全体に依存している。
これは冗長な計算につながる。
従来の画像圧縮法では2次元の画像を入力として必要としており、セマンティックマスクを適用して画像の重要でない領域をゼロに設定しても、これらの領域は引き続き画像の一部として計算に参加する。
このような制約に対処するため,マスク画像の可視部分のみを符号化・復号する位置インデクシング自己保持機構に基づく画像圧縮手法を提案する。
既存の意味構造圧縮法と比較して,本手法は計算コストを大幅に削減することができる。
関連論文リスト
- Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression [7.643300240138419]
我々は、複数の人間-理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。
我々のフレームワークは,高レベルなセマンティック情報を提供するセマンティック層からなる層状ビットストリームに画像をエンコードする。
提案手法は意味的および視覚的詳細の両方を巧みに復元し,極端に低速度でベースラインアプローチと競合する。
論文 参考訳(メタデータ) (2024-12-17T15:01:35Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Lossy Image Compression with Normalizing Flows [19.817005399746467]
ディープ・イメージ・圧縮のための最先端のソリューションは、通常、入力を低次元の潜在空間にマッピングするオートエンコーダを用いる。
対照的に、画像圧縮における従来のアプローチは、より幅広い品質レベルを実現する。
論文 参考訳(メタデータ) (2020-08-24T14:46:23Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。