論文の概要: State of the Art on Diffusion Models for Visual Computing
- arxiv url: http://arxiv.org/abs/2310.07204v1
- Date: Wed, 11 Oct 2023 05:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:14:00.528389
- Title: State of the Art on Diffusion Models for Visual Computing
- Title(参考訳): ビジュアルコンピューティングのための拡散モデルの現状
- Authors: Ryan Po, Wang Yifan, Vladislav Golyanik, Kfir Aberman, Jonathan T.
Barron, Amit H. Bermano, Eric Ryan Chan, Tali Dekel, Aleksander Holynski,
Angjoo Kanazawa, C. Karen Liu, Lingjie Liu, Ben Mildenhall, Matthias
Nie{\ss}ner, Bj\"orn Ommer, Christian Theobalt, Peter Wonka, Gordon Wetzstein
- Abstract要約: 本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
- 参考スコア(独自算出の注目度): 191.6168813012954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of visual computing is rapidly advancing due to the emergence of
generative artificial intelligence (AI), which unlocks unprecedented
capabilities for the generation, editing, and reconstruction of images, videos,
and 3D scenes. In these domains, diffusion models are the generative AI
architecture of choice. Within the last year alone, the literature on
diffusion-based tools and applications has seen exponential growth and relevant
papers are published across the computer graphics, computer vision, and AI
communities with new works appearing daily on arXiv. This rapid growth of the
field makes it difficult to keep up with all recent developments. The goal of
this state-of-the-art report (STAR) is to introduce the basic mathematical
concepts of diffusion models, implementation details and design choices of the
popular Stable Diffusion model, as well as overview important aspects of these
generative AI tools, including personalization, conditioning, inversion, among
others. Moreover, we give a comprehensive overview of the rapidly growing
literature on diffusion-based generation and editing, categorized by the type
of generated medium, including 2D images, videos, 3D objects, locomotion, and
4D scenes. Finally, we discuss available datasets, metrics, open challenges,
and social implications. This STAR provides an intuitive starting point to
explore this exciting topic for researchers, artists, and practitioners alike.
- Abstract(参考訳): 生成人工知能(AI)の出現により、視覚コンピューティングの分野は急速に進歩し、画像、ビデオ、および3Dシーンの生成、編集、再構築のための前例のない能力を解き放ちつつある。
これらの領域では、拡散モデルは選択された生成AIアーキテクチャである。
昨年だけで、拡散ベースのツールとアプリケーションに関する文献は指数関数的な成長を見せ、関連する論文がコンピュータグラフィックス、コンピュータビジョン、AIコミュニティに公開され、新しい作品がarXivに毎日掲載されている。
この分野の急速な成長は、最近のすべての発展に追いつくのを難しくしている。
この最先端レポート(STAR)の目標は、拡散モデルの基本数学的概念、一般的な安定拡散モデルの実装詳細と設計選択の導入と、パーソナライゼーション、条件付け、反転など、これらの生成AIツールの重要な側面を概観することである。
さらに,2d画像,ビデオ,3dオブジェクト,ロコモーション,および4dシーンを含む,生成媒体の種類別に分類し,拡散に基づく生成と編集に関する急速に成長している文献を総合的に概観する。
最後に、利用可能なデータセット、メトリクス、オープンチャレンジ、社会的影響について論じる。
このSTARは、研究者、アーティスト、そして実践者にも、このエキサイティングなトピックを探求するための直感的な出発点を提供する。
関連論文リスト
- Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - Advances in 3D Generation: A Survey [54.95024616672868]
3Dコンテンツ生成の分野は急速に発展しており、高品質で多様な3Dモデルの作成を可能にしている。
具体的には,3次元生成のバックボーンとして機能する3D表現を紹介する。
本稿では,アルゴリズムのパラダイムのタイプによって分類された,生成手法に関する急成長する文献の概要について概説する。
論文 参考訳(メタデータ) (2024-01-31T13:06:48Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - A Survey on Video Diffusion Models [103.03565844371711]
AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。
その印象的な生成能力のため、拡散モデルは徐々にGANと自動回帰変換器に基づく手法に取って代わられている。
本稿では,AIGC時代の映像拡散モデルについて概観する。
論文 参考訳(メタデータ) (2023-10-16T17:59:28Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - From paintbrush to pixel: A review of deep neural networks in AI-generated art [0.0]
本稿では,AI生成技術開発に利用されてきた深層ニューラルネットワークアーキテクチャとモデルについて検討する。
古典的畳み込みネットワークから最先端拡散モデルまで、この分野のキープレーヤーについて検討する。
この論文は、AI生成技術の現状に関する技術的な説明と洞察の独特なブレンドによって、アートとコンピュータ科学の相互作用を実証する。
論文 参考訳(メタデータ) (2023-02-14T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。