論文の概要: NUWA-Infinity: Autoregressive over Autoregressive Generation for
Infinite Visual Synthesis
- arxiv url: http://arxiv.org/abs/2207.09814v1
- Date: Wed, 20 Jul 2022 10:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:42:48.536714
- Title: NUWA-Infinity: Autoregressive over Autoregressive Generation for
Infinite Visual Synthesis
- Title(参考訳): nuwa-infinity:無限視覚合成のための自己回帰的生成
- Authors: Chenfei Wu, Jian Liang, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan
Wang, Zicheng Liu, Yuejian Fang, Nan Duan
- Abstract要約: 本稿では,無限視覚合成のための生成モデルであるNUWA-Infinityを提案する。
任意の大きさの高解像度画像や長期ビデオを生成するタスクとして定義される。
この可変サイズ生成タスクに対処するために,自己回帰的自己回帰生成機構を提案する。
- 参考スコア(独自算出の注目度): 157.77426850197622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present NUWA-Infinity, a generative model for infinite
visual synthesis, which is defined as the task of generating arbitrarily-sized
high-resolution images or long-duration videos. An autoregressive over
autoregressive generation mechanism is proposed to deal with this variable-size
generation task, where a global patch-level autoregressive model considers the
dependencies between patches, and a local token-level autoregressive model
considers dependencies between visual tokens within each patch. A Nearby
Context Pool (NCP) is introduced to cache-related patches already generated as
the context for the current patch being generated, which can significantly save
computation costs without sacrificing patch-level dependency modeling. An
Arbitrary Direction Controller (ADC) is used to decide suitable generation
orders for different visual synthesis tasks and learn order-aware positional
embeddings. Compared to DALL-E, Imagen and Parti, NUWA-Infinity can generate
high-resolution images with arbitrary sizes and support long-duration video
generation additionally. Compared to NUWA, which also covers images and videos,
NUWA-Infinity has superior visual synthesis capabilities in terms of resolution
and variable-size generation. The GitHub link is
https://github.com/microsoft/NUWA. The homepage link is
https://nuwa-infinity.microsoft.com.
- Abstract(参考訳): 本稿では,無限視覚合成のための生成モデルであるNUWA-Infinityについて述べる。
グローバルなパッチレベルの自己回帰モデルはパッチ間の依存関係を考慮し、ローカルなトークンレベルの自己回帰モデルは各パッチ内の視覚トークン間の依存関係を考慮します。
Nearby Context Pool(NCP)は、現在のパッチが生成されるコンテキストとして既に生成されているキャッシュ関連のパッチに導入されたもので、パッチレベルの依存性モデリングを犠牲にすることなく、計算コストを大幅に削減することができる。
任意の方向制御装置(adc)を使用して、異なる視覚合成タスクに適した生成順序を決定し、順序認識位置埋め込みを学習する。
DALL-E、Imagen、Partiと比較すると、NUWA-Infinityは任意のサイズで高解像度の画像を生成でき、長期ビデオ生成もサポートする。
画像や動画もカバーするNUWAと比較して、NUWA-Infinityは解像度と可変サイズ生成の点で優れた視覚合成能力を有している。
GitHubのリンクはhttps://github.com/microsoft/NUWA。
ホームページリンクはhttps://nuwa-infinity.microsoft.com。
関連論文リスト
- Novel View Synthesis with Pixel-Space Diffusion Models [4.844800099745365]
新規ビュー合成(NVS)に遺伝子モデルがますます採用されている
画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。
単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
論文 参考訳(メタデータ) (2024-11-12T12:58:33Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。
我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文 参考訳(メタデータ) (2022-05-16T20:23:11Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Drop the GAN: In Defense of Patches Nearest Neighbors as Single Image
Generative Models [17.823089978609843]
これらのタスクはすべて、数秒以内に、統合された驚くほど単純なフレームワークで、トレーニングなしで実行可能であることを示す。
最初は粗い推測から始まり、その後、パッチアレスト近傍のサーチを使って細かな細かな細部を精査する。
これにより、GANよりも高速でランダムな新規画像を生成することができます。
論文 参考訳(メタデータ) (2021-03-29T12:20:46Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Deep View Synthesis via Self-Consistent Generative Network [41.34461086700849]
ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。
この問題に対処するために、ほとんどの既存の方法はピクセルに一致する幾何学的情報を利用しようとします。
本稿では,幾何学的情報を明示的に活用することなく,新たなビューを合成する自己持続生成ネットワーク(SCGN)を提案する。
論文 参考訳(メタデータ) (2021-01-19T10:56:00Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。