論文の概要: Survey on Visual Signal Coding and Processing with Generative Models: Technologies, Standards and Optimization
- arxiv url: http://arxiv.org/abs/2405.14221v1
- Date: Thu, 23 May 2024 06:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:34:03.254055
- Title: Survey on Visual Signal Coding and Processing with Generative Models: Technologies, Standards and Optimization
- Title(参考訳): 生成モデルを用いた視覚信号符号化と処理に関する調査:技術,標準,最適化
- Authors: Zhibo Chen, Heming Sun, Li Zhang, Fan Zhang,
- Abstract要約: この調査は、VAEモデル、GANモデル、自己回帰(AR)モデル、正規化フロー、拡散モデルなど、確立された生成モデルの簡単な導入から始まる。
また、生成モデルを用いた視覚信号品質評価と生成モデルの品質評価とともに、生成的視覚信号合成と編集の最新の展開を示す。
- 参考スコア(独自算出の注目度): 19.879654014611805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides a survey of the latest developments in visual signal coding and processing with generative models. Specifically, our focus is on presenting the advancement of generative models and their influence on research in the domain of visual signal coding and processing. This survey study begins with a brief introduction of well-established generative models, including the Variational Autoencoder (VAE) models, Generative Adversarial Network (GAN) models, Autoregressive (AR) models, Normalizing Flows and Diffusion models. The subsequent section of the paper explores the advancements in visual signal coding based on generative models, as well as the ongoing international standardization activities. In the realm of visual signal processing, our focus lies on the application and development of various generative models in the research of visual signal restoration. We also present the latest developments in generative visual signal synthesis and editing, along with visual signal quality assessment using generative models and quality assessment for generative models. The practical implementation of these studies is closely linked to the investigation of fast optimization. This paper additionally presents the latest advancements in fast optimization on visual signal coding and processing with generative models. We hope to advance this field by providing researchers and practitioners a comprehensive literature review on the topic of visual signal coding and processing with generative models.
- Abstract(参考訳): 本稿では,視覚信号の符号化と生成モデルによる処理の最新の展開について調査する。
具体的には、生成モデルの進歩とその視覚信号符号化・処理分野の研究への影響について述べる。
この調査は、VAEモデル、GANモデル、自己回帰(AR)モデル、正規化フロー、拡散モデルなど、確立された生成モデルの簡単な導入から始まる。
その後の節では、生成モデルに基づく視覚信号符号化の進歩と、現在進行中の国際標準化活動について考察する。
視覚信号処理の分野では、視覚信号復元研究における様々な生成モデルの適用と開発に焦点が当てられている。
また、生成モデルを用いた視覚信号品質評価と生成モデルの品質評価とともに、生成的視覚信号合成と編集の最新の展開を示す。
これらの研究の実践的実装は、高速最適化の研究と密接に関連している。
本稿では,視覚信号の符号化と生成モデルによる処理の高速化について述べる。
我々は,視覚信号の符号化と生成モデルによる処理の話題について,研究者や実践者たちに総合的な文献レビューを提供することで,この分野を推し進めたい。
関連論文リスト
- A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した
NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。
本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:41Z) - Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - Recommendation with Generative Models [35.029116616023586]
生成モデルは、統計分布から学習し、サンプリングすることで、データの新しいインスタンスを作成することができるAIモデルである。
これらのモデルは、画像生成、テキスト合成、音楽合成など、様々な領域に応用されている。
レコメンデーションシステムでは、Gen-RecSysと呼ばれる生成モデルは、レコメンデーションの正確性と多様性を改善する。
論文 参考訳(メタデータ) (2024-09-18T18:29:15Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。
研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-19T21:10:39Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。