論文の概要: Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields
- arxiv url: http://arxiv.org/abs/2504.21814v1
- Date: Wed, 30 Apr 2025 17:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 17:39:52.985532
- Title: Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields
- Title(参考訳): なぜ圧縮できるのか? 画像圧縮分野におけるGPT-4o生成の使い方
- Authors: Yixin Gao, Xiaohan Pan, Xin Li, Zhibo Chen,
- Abstract要約: AIGCファンデーションモデルは、コンパクトな記述子以上のものから複雑な構造ときめ細かい詳細を忠実に生成できるほど強力である。
OpenAIの最近のGPT-4o画像生成は、印象的なクロスモダリティ生成、編集、設計機能を実現している。
- 参考スコア(独自算出の注目度): 14.805239427360208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of AIGC foundation models has revolutionized the paradigm of image compression, which paves the way for the abandonment of most pixel-level transform and coding, compelling us to ask: why compress what you can generate if the AIGC foundation model is powerful enough to faithfully generate intricate structure and fine-grained details from nothing more than some compact descriptors, i.e., texts, or cues. Fortunately, recent GPT-4o image generation of OpenAI has achieved impressive cross-modality generation, editing, and design capabilities, which motivates us to answer the above question by exploring its potential in image compression fields. In this work, we investigate two typical compression paradigms: textual coding and multimodal coding (i.e., text + extremely low-resolution image), where all/most pixel-level information is generated instead of compressing via the advanced GPT-4o image generation function. The essential challenge lies in how to maintain semantic and structure consistency during the decoding process. To overcome this, we propose a structure raster-scan prompt engineering mechanism to transform the image into textual space, which is compressed as the condition of GPT-4o image generation. Extensive experiments have shown that the combination of our designed structural raster-scan prompts and GPT-4o's image generation function achieved the impressive performance compared with recent multimodal/generative image compression at ultra-low bitrate, further indicating the potential of AIGC generation in image compression fields.
- Abstract(参考訳): AIGCファンデーションモデルの急速な発展は、画像圧縮のパラダイムに革命をもたらし、ほとんどのピクセルレベルの変換とコーディングの放棄の道を開いた。なぜAIGCファンデーションモデルは、複雑な構造を忠実に生成し、コンパクトな記述子(テキストやキューなど)の何からでも、きめ細かな詳細を忠実に生成できるようなものを生成することができるのか?
幸いなことに、最近のOpenAIのGPT-4o画像生成は、画像圧縮分野におけるその可能性を探ることで、上記の疑問に答える動機となる、印象的なクロスモダリティ生成、編集、設計機能を実現している。
本稿では,テキスト符号化とマルチモーダル符号化(テキスト+超低解像度画像)の2つの典型的な圧縮パラダイムについて検討する。
重要な課題は、デコーディングプロセス中に意味的および構造的一貫性を維持する方法である。
そこで本研究では,GPT-4o画像生成条件として圧縮された画像をテキスト空間に変換する構造ラスタスキャンプロンプトエンジニアリング機構を提案する。
GPT-4oの画像生成機能と構造ラスタースキャンプロンプトの組み合わせは、近年の超低ビットレートでのマルチモーダル/ジェネレーション画像圧縮と比較して、印象的な性能を示し、さらに画像圧縮場におけるAIGC生成の可能性を示している。
関連論文リスト
- Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression [7.643300240138419]
我々は、複数の人間-理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。
我々のフレームワークは,高レベルなセマンティック情報を提供するセマンティック層からなる層状ビットストリームに画像をエンコードする。
提案手法は意味的および視覚的詳細の両方を巧みに復元し,極端に低速度でベースラインアプローチと競合する。
論文 参考訳(メタデータ) (2024-12-17T15:01:35Z) - Towards Defining an Efficient and Expandable File Format for AI-Generated Contents [23.217964968742823]
我々は,AIGC画像の超低符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを提案する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造が,最大1/10,000の圧縮比を達成できることを実験的に確認した。
論文 参考訳(メタデータ) (2024-10-13T13:29:30Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。
制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
符号化符号に従って歴史的多粒度表現を検索できる条件デコーダを開発し、条件付き確率の形式化において階層的特徴を再構築する。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Exploring the Limits of Semantic Image Compression at Micro-bits per
Pixel [8.518076792914039]
我々はOpenAIのGPT-4VとDALL-E3を使って画像圧縮のための品質圧縮フロンティアを探索する。
我々は、反復的なリフレクションプロセスを導入することで、セマンティック圧縮を100$mu$bpp(JPEGより1万ドル以上安い)まで低くします。
さらに、この100$mu$bppレベルは、標準的な画像解像度におけるセマンティック圧縮のソフトな制限を表すと仮定する。
論文 参考訳(メタデータ) (2024-02-21T05:14:30Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。