論文の概要: N\"UWA: Visual Synthesis Pre-training for Neural visUal World creAtion
- arxiv url: http://arxiv.org/abs/2111.12417v1
- Date: Wed, 24 Nov 2021 11:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:43:48.341655
- Title: N\"UWA: Visual Synthesis Pre-training for Neural visUal World creAtion
- Title(参考訳): N\"UWA":ニューラルビジュアルワールド・クレーションのための視覚合成事前学習
- Authors: Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang,
Nan Duan
- Abstract要約: 本稿では,既存の視覚データの生成や操作が可能な,N"UWAと呼ばれる統合型マルチモーダル事前学習モデルを提案する。
3D変換器エンコーダ・デコーダ・フレームワークが設計されており、1Dデータや2Dデータとしてテキストや画像に適応できる。
これは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、ビデオ予測などの最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 46.92663878213134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a unified multimodal pre-trained model called N\"UWA that
can generate new or manipulate existing visual data (i.e., images and videos)
for various visual synthesis tasks. To cover language, image, and video at the
same time for different scenarios, a 3D transformer encoder-decoder framework
is designed, which can not only deal with videos as 3D data but also adapt to
texts and images as 1D and 2D data, respectively. A 3D Nearby Attention (3DNA)
mechanism is also proposed to consider the nature of the visual data and reduce
the computational complexity. We evaluate N\"UWA on 8 downstream tasks.
Compared to several strong baselines, N\"UWA achieves state-of-the-art results
on text-to-image generation, text-to-video generation, video prediction, etc.
Furthermore, it also shows surprisingly good zero-shot capabilities on
text-guided image and video manipulation tasks. Project repo is
https://github.com/microsoft/NUWA.
- Abstract(参考訳): 本稿では,様々な視覚合成タスクにおいて,既存の視覚データ(画像や映像など)を新たに生成あるいは操作可能な,n\"uwa"と呼ばれる統合マルチモーダル事前学習モデルを提案する。
言語、画像、動画を異なるシナリオで同時にカバーするために、3Dトランスフォーマーエンコーダ・デコーダ・フレームワークが設計されており、3Dデータとしてビデオを扱うだけでなく、1Dデータと2Dデータとしてテキストと画像に適応することができる。
また,視覚データの性質を考慮し,計算量を削減する3次元near attention(3dna)機構も提案されている。
我々は8つの下流タスクでN\"UWA"を評価する。
いくつかの強力なベースラインと比較すると、n\"uwaはテキスト対画像生成、テキスト対ビデオ生成、ビデオ予測などの最先端の結果を達成している。
さらに、テキスト誘導画像やビデオ操作タスクにおいて驚くほど優れたゼロショット機能を示す。
プロジェクトリポジトリはhttps://github.com/microsoft/NUWA。
関連論文リスト
- OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。