論文の概要: Toward Defining an Efficient and Expandable File Format for AI-Generated Contents
- arxiv url: http://arxiv.org/abs/2410.09834v1
- Date: Sun, 13 Oct 2024 13:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:07:28.625529
- Title: Toward Defining an Efficient and Expandable File Format for AI-Generated Contents
- Title(参考訳): AI生成コンテンツのための効率的で拡張可能なファイルフォーマットの定義に向けて
- Authors: Yixin Gao, Runsen Feng, Xin Li, Weiping Li, Zhibo Chen,
- Abstract要約: 我々は,AIGC画像の超低符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを提案する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造が,最大1/10,000の圧縮比を達成できることを実験的に確認した。
- 参考スコア(独自算出の注目度): 23.217964968742823
- License:
- Abstract: Recently, AI-generated content (AIGC) has gained significant traction due to its powerful creation capability. However, the storage and transmission of large amounts of high-quality AIGC images inevitably pose new challenges for recent file formats. To overcome this, we define a new file format for AIGC images, named AIGIF, enabling ultra-low bitrate coding of AIGC images. Unlike compressing AIGC images intuitively with pixel-wise space as existing file formats, AIGIF instead compresses the generation syntax. This raises a crucial question: Which generation syntax elements, e.g., text prompt, device configuration, etc, are necessary for compression/transmission? To answer this question, we systematically investigate the effects of three essential factors: platform, generative model, and data configuration. We experimentally find that a well-designed composable bitstream structure incorporating the above three factors can achieve an impressive compression ratio of even up to 1/10,000 while still ensuring high fidelity. We also introduce an expandable syntax in AIGIF to support the extension of the most advanced generation models to be developed in the future.
- Abstract(参考訳): 近年、AIGC(AI-Generated Content)はその強力な作成能力のために大きな注目を集めている。
しかし、大量の高品質なAIGC画像の保存と送信は、必然的に最近のファイルフォーマットに新しい課題をもたらす。
そこで我々は,AIGC画像の超低ビットレート符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを定義した。
既存のファイルフォーマットとしてピクセル単位の空間で直感的にAIGC画像を圧縮するのとは異なり、AIGIFは生成構文を圧縮する。
どの生成構文要素、例えば、テキストプロンプト、デバイス構成など、圧縮/送信に必要か?
この質問に答えるために、プラットフォーム、生成モデル、データ構成という3つの重要な要素の効果を体系的に調査する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造は,高い忠実性を確保しつつ,最大1/10,000の圧縮比を達成できることを実験的に確認した。
また、AIGIFに拡張可能な構文を導入し、将来開発される最も先進的な世代モデルの拡張をサポートする。
関連論文リスト
- MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。