Fugu-MT 論文翻訳(概要): Toward Defining an Efficient and Expandable File Format for AI-Generated Contents

論文の概要: Toward Defining an Efficient and Expandable File Format for AI-Generated Contents

arxiv url: http://arxiv.org/abs/2410.09834v1
Date: Tue, 15 Oct 2024 06:26:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 04:42:49.002065
Title: Toward Defining an Efficient and Expandable File Format for AI-Generated Contents
Title（参考訳）: AI生成コンテンツのための効率的で拡張可能なファイルフォーマットの定義に向けて
Authors: Yixin Gao, Runsen Feng, Xin Li, Weiping Li, Zhibo Chen,
Abstract要約: 我々は,AIGC画像の超低符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを提案する。以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造が,最大1/10,000の圧縮比を達成できることを実験的に確認した。
参考スコア（独自算出の注目度）: 23.217964968742823
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, AI-generated content (AIGC) has gained significant traction due to its powerful creation capability. However, the storage and transmission of large amounts of high-quality AIGC images inevitably pose new challenges for recent file formats. To overcome this, we define a new file format for AIGC images, named AIGIF, enabling ultra-low bitrate coding of AIGC images. Unlike compressing AIGC images intuitively with pixel-wise space as existing file formats, AIGIF instead compresses the generation syntax. This raises a crucial question: Which generation syntax elements, e.g., text prompt, device configuration, etc, are necessary for compression/transmission? To answer this question, we systematically investigate the effects of three essential factors: platform, generative model, and data configuration. We experimentally find that a well-designed composable bitstream structure incorporating the above three factors can achieve an impressive compression ratio of even up to 1/10,000 while still ensuring high fidelity. We also introduce an expandable syntax in AIGIF to support the extension of the most advanced generation models to be developed in the future.
Abstract（参考訳）: 近年、AIGC(AI-Generated Content)はその強力な作成能力のために大きな注目を集めている。しかし、大量の高品質なAIGC画像の保存と送信は、必然的に最近のファイルフォーマットに新しい課題をもたらす。そこで我々は,AIGC画像の超低ビットレート符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを定義した。既存のファイルフォーマットとしてピクセル単位の空間で直感的にAIGC画像を圧縮するのとは異なり、AIGIFは生成構文を圧縮する。どの生成構文要素、例えば、テキストプロンプト、デバイス構成など、圧縮/送信に必要か? この質問に答えるために、プラットフォーム、生成モデル、データ構成という3つの重要な要素の効果を体系的に調査する。以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造は,高い忠実性を確保しつつ,最大1/10,000の圧縮比を達成できることを実験的に確認した。また、AIGIFに拡張可能な構文を導入し、将来開発される最も先進的な世代モデルの拡張をサポートする。

関連論文リスト

Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields [14.805239427360208]
AIGCファンデーションモデルは、コンパクトな記述子以上のものから複雑な構造ときめ細かい詳細を忠実に生成できるほど強力である。 OpenAIの最近のGPT-4o画像生成は、印象的なクロスモダリティ生成、編集、設計機能を実現している。
論文参考訳（メタデータ） (2025-04-30T17:20:14Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression [7.643300240138419]
我々は、複数の人間-理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。我々のフレームワークは,高レベルなセマンティック情報を提供するセマンティック層からなる層状ビットストリームに画像をエンコードする。提案手法は意味的および視覚的詳細の両方を巧みに復元し,極端に低速度でベースラインアプローチと競合する。
論文参考訳（メタデータ） (2024-12-17T15:01:35Z)
PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-12T18:59:40Z)
ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。トークン長に関する復元と生成品質の間にはトレードオフがある。本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文参考訳（メタデータ） (2024-10-02T17:06:39Z)
Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。 textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文参考訳（メタデータ） (2024-08-16T07:23:18Z)
CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement [8.16306466526838]
海面監視のための無人水中画像解析は、画質低下とハードウェアストレージ制約という2つの大きな課題に直面している。本稿では,劣化した水中画像の効率よく圧縮・拡張する新しいアーキテクチャであるCapsule Enhanced Variational AutoEncoder (CE-VAE)を紹介する。 CE-VAEは6つのベンチマークデータセットの水中画像強化において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-03T13:04:42Z)
MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文参考訳（メタデータ） (2024-02-26T17:11:11Z)
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。 ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文参考訳（メタデータ） (2023-08-31T09:27:56Z)
GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文参考訳（メタデータ） (2022-05-27T17:03:38Z)
A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文参考訳（メタデータ） (2021-12-09T18:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。