論文の概要: Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity
- arxiv url: http://arxiv.org/abs/2403.02944v2
- Date: Wed, 22 May 2024 03:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:19:24.024294
- Title: Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity
- Title(参考訳): テキスト誘導符号化による画素レベルと知覚忠実度の両方のニューラル画像圧縮
- Authors: Hagyeong Lee, Minkyu Kim, Jun-Hyuk Kim, Seungeon Kim, Dokwan Oh, Jaeho Lee,
- Abstract要約: 我々は,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。
これにより、テキスト誘導生成モデルに基づく復号化を避けることができる。
提案手法は,人や機械が生成するキャプションを用いて,高いピクセルレベルと知覚品質を実現する。
- 参考スコア(独自算出の注目度): 18.469136842357095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-guided image compression have shown great potential to enhance the perceptual quality of reconstructed images. These methods, however, tend to have significantly degraded pixel-wise fidelity, limiting their practicality. To fill this gap, we develop a new text-guided image compression algorithm that achieves both high perceptual and pixel-wise fidelity. In particular, we propose a compression framework that leverages text information mainly by text-adaptive encoding and training with joint image-text loss. By doing so, we avoid decoding based on text-guided generative models -- known for high generative diversity -- and effectively utilize the semantic information of text at a global level. Experimental results on various datasets show that our method can achieve high pixel-level and perceptual quality, with either human- or machine-generated captions. In particular, our method outperforms all baselines in terms of LPIPS, with some room for even more improvements when we use more carefully generated captions.
- Abstract(参考訳): テキスト誘導画像圧縮の最近の進歩は、再構成画像の知覚品質を高める大きな可能性を示している。
しかし、これらの手法はピクセル単位の忠実度を著しく低下させ、実用性を制限する傾向にある。
このギャップを埋めるために,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。
特に,テキスト適応型エンコーディングと共同画像-テキストロスによるトレーニングを中心に,テキスト情報を活用する圧縮フレームワークを提案する。
これにより、高い生成多様性で知られるテキスト誘導生成モデルに基づく復号化を回避し、グローバルレベルでテキストの意味情報を効果的に活用する。
様々なデータセットを用いた実験結果から,本手法は人文・機械文のキャプションを用いて,高い画素レベル,知覚的品質を達成できることが示唆された。
特に,LPIPSでは,より慎重に生成されたキャプションを使用すれば,さらに改良の余地があるため,すべてのベースラインで性能が向上する。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Learned Image Compression with Text Quality Enhancement [14.105456271662328]
本稿では,オリジナル画像と再構成画像間のテキストの相違を定量化するために設計された,新たなテキストロジット損失を最小限に抑えることを提案する。
提案した損失関数を適切な重み付けと組み合わせることで,再構成テキストの品質が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-02-13T18:20:04Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Multi-Modality Deep Network for Extreme Learned Image Compression [31.532613540054697]
本稿では,テキストのセマンティック情報を先行情報として利用して画像圧縮性能を誘導する,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
論文 参考訳(メタデータ) (2023-04-26T14:22:59Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。