論文の概要: Image Generation Models: A Technical History
- arxiv url: http://arxiv.org/abs/2603.07455v1
- Date: Sun, 08 Mar 2026 04:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.60405
- Title: Image Generation Models: A Technical History
- Title(参考訳): 画像生成モデル:技術史
- Authors: Rouzbeh Shirvani,
- Abstract要約: 本稿では, 可変オートエンコーダ (VAE) , GAN (Generative Adversarial Network) , 正規化フロー, 自己回帰型およびトランスフォーマーベースジェネレータ, 拡散型手法を含む, ブレークスルー画像生成モデルに関する総合的な調査を行う。
基礎となる目的、アーキテクチャ構築ブロック、アルゴリズムによるトレーニングステップを含む、各モデルタイプの詳細な技術的ウォークスルーを提供する。
ビデオ生成の最近の進歩や、静止画から高品質なビデオへの移行を可能にする研究成果も紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation has advanced rapidly over the past decade, yet the literature seems fragmented across different models and application domains. This paper aims to offer a comprehensive survey of breakthrough image generation models, including variational autoencoders (VAEs), generative adversarial networks (GANs), normalizing flows, autoregressive and transformer-based generators, and diffusion-based methods. We provide a detailed technical walkthrough of each model type, including their underlying objectives, architectural building blocks, and algorithmic training steps. For each model type, we present the optimization techniques as well as common failure modes and limitations. We also go over recent developments in video generation and present the research works that made it possible to go from still frames to high quality videos. Lastly, we cover the growing importance of robustness and responsible deployment of these models, including deepfake risks, detection, artifacts, and watermarking.
- Abstract(参考訳): 画像生成はこの10年間で急速に進歩してきたが、さまざまなモデルやアプリケーションドメインに分散しているようだ。
本稿では, 可変オートエンコーダ (VAE) , GAN (Generative Adversarial Network) , 正規化フロー, 自己回帰型およびトランスフォーマーベースジェネレータ, 拡散型手法を含む, ブレークスルー画像生成モデルに関する総合的な調査を行う。
基礎となる目的、アーキテクチャ構築ブロック、アルゴリズムによるトレーニングステップを含む、各モデルタイプの詳細な技術的ウォークスルーを提供する。
各モデルタイプに対して、最適化手法と共通の障害モードと制限を示す。
ビデオ生成の最近の進歩や、静止画から高品質なビデオへの移行を可能にする研究成果も紹介する。
最後に、これらのモデルのロバスト性の重要性の高まりと、詳細なリスク、検出、アーティファクト、透かしなど、責任ある展開について取り上げる。
関連論文リスト
- Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-05-29T10:34:45Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。