論文の概要: Perceptual Image Compression with Cooperative Cross-Modal Side
Information
- arxiv url: http://arxiv.org/abs/2311.13847v2
- Date: Tue, 28 Nov 2023 14:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 10:04:14.295875
- Title: Perceptual Image Compression with Cooperative Cross-Modal Side
Information
- Title(参考訳): 協調的側方情報を用いた知覚画像圧縮
- Authors: Shiyu Qin, Bin Chen, Yujun Huang, Baoyi An, Tao Dai, Shu-Tao Xia
- Abstract要約: 本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
- 参考スコア(独自算出の注目度): 53.356714177243745
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The explosion of data has resulted in more and more associated text being
transmitted along with images. Inspired by from distributed source coding, many
works utilize image side information to enhance image compression. However,
existing methods generally do not consider using text as side information to
enhance perceptual compression of images, even though the benefits of
multimodal synergy have been widely demonstrated in research. This begs the
following question: How can we effectively transfer text-level semantic
dependencies to help image compression, which is only available to the decoder?
In this work, we propose a novel deep image compression method with text-guided
side information to achieve a better rate-perception-distortion tradeoff.
Specifically, we employ the CLIP text encoder and an effective Semantic-Spatial
Aware block to fuse the text and image features. This is done by predicting a
semantic mask to guide the learned text-adaptive affine transformation at the
pixel level. Furthermore, we design a text-conditional generative adversarial
networks to improve the perceptual quality of reconstructed images. Extensive
experiments involving four datasets and ten image quality assessment metrics
demonstrate that the proposed approach achieves superior results in terms of
rate-perception trade-off and semantic distortion.
- Abstract(参考訳): データの爆発により、画像とともに多くの関連テキストが送信されるようになった。
分散ソース符号化から着想を得た多くの作品が画像側情報を利用して画像圧縮を強化する。
しかし、既存の手法では、マルチモーダル・シナジーの利点が研究で広く実証されているにもかかわらず、画像の知覚的圧縮を高めるために、テキストをサイド情報として使うことを考慮していない。
テキストレベルのセマンティクスを効果的に転送して、デコーダにのみ使用可能な画像圧縮を支援するには、どうすればよいのか?
本研究では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
これは、学習したテキスト適応アフィン変換をピクセルレベルで導くためにセマンティックマスクを予測することで実現される。
さらに,再構成画像の知覚品質を向上させるために,テキスト条件生成対向ネットワークを設計する。
4つのデータセットと10の画像品質評価指標を含む大規模な実験により、提案手法は速度知覚トレードオフと意味的歪みの点で優れた結果が得られることを示した。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity [18.469136842357095]
我々は,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。
これにより、テキスト誘導生成モデルに基づく復号化を避けることができる。
提案手法は,人や機械が生成するキャプションを用いて,高いピクセルレベルと知覚品質を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:15:01Z) - Learned Image Compression with Text Quality Enhancement [14.105456271662328]
本稿では,オリジナル画像と再構成画像間のテキストの相違を定量化するために設計された,新たなテキストロジット損失を最小限に抑えることを提案する。
提案した損失関数を適切な重み付けと組み合わせることで,再構成テキストの品質が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-02-13T18:20:04Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Multi-Modality Deep Network for Extreme Learned Image Compression [31.532613540054697]
本稿では,テキストのセマンティック情報を先行情報として利用して画像圧縮性能を誘導する,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
論文 参考訳(メタデータ) (2023-04-26T14:22:59Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。