論文の概要: Toward Defining an Efficient and Expandable File Format for AI-Generated Contents
- arxiv url: http://arxiv.org/abs/2410.09834v1
- Date: Tue, 15 Oct 2024 06:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:42:49.002065
- Title: Toward Defining an Efficient and Expandable File Format for AI-Generated Contents
- Title(参考訳): AI生成コンテンツのための効率的で拡張可能なファイルフォーマットの定義に向けて
- Authors: Yixin Gao, Runsen Feng, Xin Li, Weiping Li, Zhibo Chen,
- Abstract要約: 我々は,AIGC画像の超低符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを提案する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造が,最大1/10,000の圧縮比を達成できることを実験的に確認した。
- 参考スコア(独自算出の注目度): 23.217964968742823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, AI-generated content (AIGC) has gained significant traction due to its powerful creation capability. However, the storage and transmission of large amounts of high-quality AIGC images inevitably pose new challenges for recent file formats. To overcome this, we define a new file format for AIGC images, named AIGIF, enabling ultra-low bitrate coding of AIGC images. Unlike compressing AIGC images intuitively with pixel-wise space as existing file formats, AIGIF instead compresses the generation syntax. This raises a crucial question: Which generation syntax elements, e.g., text prompt, device configuration, etc, are necessary for compression/transmission? To answer this question, we systematically investigate the effects of three essential factors: platform, generative model, and data configuration. We experimentally find that a well-designed composable bitstream structure incorporating the above three factors can achieve an impressive compression ratio of even up to 1/10,000 while still ensuring high fidelity. We also introduce an expandable syntax in AIGIF to support the extension of the most advanced generation models to be developed in the future.
- Abstract(参考訳): 近年、AIGC(AI-Generated Content)はその強力な作成能力のために大きな注目を集めている。
しかし、大量の高品質なAIGC画像の保存と送信は、必然的に最近のファイルフォーマットに新しい課題をもたらす。
そこで我々は,AIGC画像の超低ビットレート符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを定義した。
既存のファイルフォーマットとしてピクセル単位の空間で直感的にAIGC画像を圧縮するのとは異なり、AIGIFは生成構文を圧縮する。
どの生成構文要素、例えば、テキストプロンプト、デバイス構成など、圧縮/送信に必要か?
この質問に答えるために、プラットフォーム、生成モデル、データ構成という3つの重要な要素の効果を体系的に調査する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造は,高い忠実性を確保しつつ,最大1/10,000の圧縮比を達成できることを実験的に確認した。
また、AIGIFに拡張可能な構文を導入し、将来開発される最も先進的な世代モデルの拡張をサポートする。
関連論文リスト
- ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement [8.16306466526838]
海面監視のための無人水中画像解析は、画質低下とハードウェアストレージ制約という2つの大きな課題に直面している。
本稿では,劣化した水中画像の効率よく圧縮・拡張する新しいアーキテクチャであるCapsule Enhanced Variational AutoEncoder (CE-VAE)を紹介する。
CE-VAEは6つのベンチマークデータセットの水中画像強化において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-03T13:04:42Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。