論文の概要: Cross Modal Compression: Towards Human-comprehensible Semantic
Compression
- arxiv url: http://arxiv.org/abs/2209.02574v1
- Date: Tue, 6 Sep 2022 15:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 15:30:38.403698
- Title: Cross Modal Compression: Towards Human-comprehensible Semantic
Compression
- Title(参考訳): クロスモーダル圧縮:人間理解可能な意味圧縮に向けて
- Authors: Jiguo Li, Chuanmin Jia, Xinfeng Zhang, Siwei Ma, Wen Gao
- Abstract要約: クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 73.89616626853913
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional image/video compression aims to reduce the transmission/storage
cost with signal fidelity as high as possible. However, with the increasing
demand for machine analysis and semantic monitoring in recent years, semantic
fidelity rather than signal fidelity is becoming another emerging concern in
image/video compression. With the recent advances in cross modal translation
and generation, in this paper, we propose the cross modal compression~(CMC), a
semantic compression framework for visual data, to transform the high redundant
visual data~(such as image, video, etc.) into a compact, human-comprehensible
domain~(such as text, sketch, semantic map, attributions, etc.), while
preserving the semantic. Specifically, we first formulate the CMC problem as a
rate-distortion optimization problem. Secondly, we investigate the relationship
with the traditional image/video compression and the recent feature compression
frameworks, showing the difference between our CMC and these prior frameworks.
Then we propose a novel paradigm for CMC to demonstrate its effectiveness. The
qualitative and quantitative results show that our proposed CMC can achieve
encouraging reconstructed results with an ultrahigh compression ratio, showing
better compression performance than the widely used JPEG baseline.
- Abstract(参考訳): 従来の画像/ビデオ圧縮は、伝送/保存コストを可能な限り高めることを目的としている。
しかし,近年,機械解析やセマンティックモニタリングの需要が高まり,信号の忠実さよりも意味の忠実さが画像・映像圧縮の新たな関心事になりつつある。
本稿では、近年のクロスモーダル翻訳と生成の進歩により、視覚データのための意味圧縮フレームワークであるクロスモーダル圧縮~(CMC)を提案し、その意味を保ちながら、高冗長な視覚データ~(画像、ビデオなど)をコンパクトで理解しやすい領域~(テキスト、スケッチ、セマンティックマップ、属性マップなど)に変換する。
具体的には、まずCMC問題をレート歪み最適化問題として定式化する。
次に,従来の画像圧縮と最近の特徴圧縮フレームワークとの関係について検討し,CMCとそれ以前のフレームワークの違いを示す。
次に,CMCの有効性を示す新しいパラダイムを提案する。
定性的かつ定量的な結果から,提案したCMCは,超高圧縮率で再現可能であり,JPEGベースラインよりも圧縮性能がよいことを示す。
関連論文リスト
- Learned Image Compression for HE-stained Histopathological Images via Stain Deconvolution [33.69980388844034]
本稿では,一般的なJPEGアルゴリズムがさらなる圧縮に適していないことを示す。
Stain Quantized Latent Compression, a novel DL based histopathology data compression approach。
提案手法はJPEGのような従来の手法と比較して,下流タスクの分類において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-06-18T13:47:17Z) - SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文 参考訳(メタデータ) (2024-06-07T09:06:40Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - A Unified Image Preprocessing Framework For Image Compression [5.813935823171752]
そこで我々は,既存のコーデックの性能向上を図るために,Kuchenと呼ばれる統合された画像圧縮前処理フレームワークを提案する。
このフレームワークは、ハイブリッドデータラベリングシステムと、パーソナライズされた前処理をシミュレートする学習ベースのバックボーンで構成されている。
その結果,我々の統合前処理フレームワークによって最適化された現代のコーデックは,常に最先端圧縮の効率を向上することを示した。
論文 参考訳(メタデータ) (2022-08-15T10:41:00Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。