論文の概要: SMIC: Semantic Multi-Item Compression based on CLIP dictionary
- arxiv url: http://arxiv.org/abs/2412.05035v1
- Date: Fri, 06 Dec 2024 13:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:55:08.754719
- Title: SMIC: Semantic Multi-Item Compression based on CLIP dictionary
- Title(参考訳): SMIC:CLIP辞書に基づく意味的多項目圧縮
- Authors: Tom Bachard, Thomas Maugey,
- Abstract要約: 最近のセマンティック圧縮スキームは基盤モデルCLIPに依存している。
このような手法を画像収集圧縮に拡張し、コーディングフェーズ中に中間冗長性を考慮する。
また,学習した辞書はセマンティックな性質を持ち,画像のセマンティックな内容のセマンティックなプロジェクタとして機能することを示す。
- 参考スコア(独自算出の注目度): 9.17424462858218
- License:
- Abstract: Semantic compression, a compression scheme where the distortion metric, typically MSE, is replaced with semantic fidelity metrics, tends to become more and more popular. Most recent semantic compression schemes rely on the foundation model CLIP. In this work, we extend such a scheme to image collection compression, where inter-item redundancy is taken into account during the coding phase. For that purpose, we first show that CLIP's latent space allows for easy semantic additions and subtractions. From this property, we define a dictionary-based multi-item codec that outperforms state-of-the-art generative codec in terms of compression rate, around $10^{-5}$ BPP per image, while not sacrificing semantic fidelity. We also show that the learned dictionary is of a semantic nature and works as a semantic projector for the semantic content of images.
- Abstract(参考訳): 意味的圧縮(Semantic compression)は、歪み計量(通常、MSE)を意味的忠実度メトリクスに置き換える圧縮スキームであり、ますます普及する傾向にある。
最近のセマンティック圧縮スキームは基盤モデルCLIPに依存している。
本研究では,この手法を画像収集圧縮に拡張し,符号化フェーズの中間冗長性を考慮に入れた。
その目的のために、まず最初にCLIPの潜伏空間が意味的な追加や減算を容易にできることを示す。
この特性から,画像ごとの圧縮率で最先端生成コーデックより優れる辞書ベースのマルチテムコーデックを定義する。
また、学習した辞書は意味的な性質を持ち、画像の意味的内容のセマンティックプロジェクタとして機能することを示す。
関連論文リスト
- Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression [54.62883091552163]
教師なしビデオセマンティック圧縮(UVSC)は近年注目を集めている。
VFM から既製のリッチなセマンティクスを吸収することで UVSC タスクを強化することを提案する。
圧縮されたビデオと様々なVFM間のセマンティックスを柔軟に整合させるために,VFM固有のプロンプトによって補完されるVFMの共有セマンティックアライメント層を導入する。
論文 参考訳(メタデータ) (2024-09-18T05:55:01Z) - Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文 参考訳(メタデータ) (2024-06-07T09:06:40Z) - Crossword: A Semantic Approach to Data Compression via Masking [38.107509264270924]
本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
論文 参考訳(メタデータ) (2023-04-03T16:04:06Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Towards Semantic Communications: Deep Learning-Based Image Semantic
Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。
画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。
実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文 参考訳(メタデータ) (2022-08-08T12:29:55Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。