Fugu-MT 論文翻訳(概要): MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field

論文の概要: MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field

arxiv url: http://arxiv.org/abs/2309.13607v2
Date: Tue, 28 Nov 2023 06:16:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 14:35:57.819024
Title: MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field
Title（参考訳）: MM-NeRF:マルチモーダルガイドによるニューラルラジアンス場の多次元移動
Authors: Zijiang Yang, Zhongwei Qiu, Chang Xu, Dongmei Fu
Abstract要約: 3Dスタイルの転送は、特定のスタイルで3Dシーンのスタイリングされたビューを生成することを目的としている。既存の手法は、テクスチャの詳細とマルチモーダルガイダンスによるスタイル化による高品質なスタイル化の課題を依然として抱えている。 MM-NeRFと呼ばれるNeRFのマルチモーダル誘導型3次元多次元転送を提案する。
参考スコア（独自算出の注目度）: 25.18088588418456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D style transfer aims to generate stylized views of 3D scenes with specified styles, which requires high-quality generating and keeping multi-view consistency. Existing methods still suffer the challenges of high-quality stylization with texture details and stylization with multimodal guidance. In this paper, we reveal that the common training method of stylization with NeRF, which generates stylized multi-view supervision by 2D style transfer models, causes the same object in supervision to show various states (color tone, details, etc.) in different views, leading NeRF to tend to smooth the texture details, further resulting in low-quality rendering for 3D multi-style transfer. To tackle these problems, we propose a novel Multimodal-guided 3D Multi-style transfer of NeRF, termed MM-NeRF. First, MM-NeRF projects multimodal guidance into a unified space to keep the multimodal styles consistency and extracts multimodal features to guide the 3D stylization. Second, a novel multi-head learning scheme is proposed to relieve the difficulty of learning multi-style transfer, and a multi-view style consistent loss is proposed to track the inconsistency of multi-view supervision data. Finally, a novel incremental learning mechanism to generalize MM-NeRF to any new style with small costs. Extensive experiments on several real-world datasets show that MM-NeRF achieves high-quality 3D multi-style stylization with multimodal guidance, and keeps multi-view consistency and style consistency between multimodal guidance. Codes will be released.
Abstract（参考訳）: 3dスタイル転送は、特定のスタイルで3dシーンのスタイル化されたビューを生成することを目的としている。既存の手法は、テクスチャの詳細とマルチモーダルガイダンスによるスタイル化による高品質なスタイル化の課題を依然として抱えている。本論文では,2次元スタイルの転送モデルによる多面的監視を生成するNeRFを用いた多面的スタイル化の一般的な訓練手法により,異なる視点における異なる状態(色調,詳細など)を同じオブジェクトに表示させることで,NeRFはテクスチャの細部を滑らかにし,さらに3次元多面的転送のための低品質レンダリングを実現する。これらの問題に対処するため,MM-NeRFと呼ばれる新しいマルチモーダル誘導型3次元NeRFの多次元転送を提案する。まず、mm-nerfはマルチモーダルスタイルの一貫性を保つためにマルチモーダルガイダンスを統一空間に投影し、3dスタイライゼーションを導くためにマルチモーダルな特徴を抽出する。第二に,多視点監視データの一貫性の欠如を追跡するために,多視点学習の難易度を軽減すべく,新しい多視点学習方式を提案する。最後に、MM-NeRFを小さなコストで新しいスタイルに一般化する新しいインクリメンタル学習機構を提案する。複数の実世界のデータセットに対する大規模な実験により、MM-NeRFはマルチモーダルガイダンスによる高品質な3Dマルチスタイルのスタイリングを実現し、マルチビューの一貫性とマルチモーダルガイダンス間のスタイルの整合性を維持する。コードはリリースされる。

関連論文リスト

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。 MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文参考訳（メタデータ） (2024-12-24T18:51:19Z)
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文参考訳（メタデータ） (2024-12-24T17:36:34Z)
Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning [12.43848969320173]
提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。本手法は,3次元情報のないスタイリング画像における構造情報と多視点整合性を効果的に保存する。
論文参考訳（メタデータ） (2024-11-15T12:02:07Z)
G3DST: Generalizing 3D Style Transfer with Neural Radiance Fields across Scenes and Styles [45.92812062685523]
既存の3Dスタイル転送の方法は、シングルまたは複数スタイルのシーンごとの広範な最適化が必要である。本研究では, シーンごとの最適化やスタイルごとの最適化を必要とせずに, NeRF からスタイリングされた新しいビューをレンダリングすることで, 既存の手法の限界を克服する。以上の結果から,本手法はシーンごとの手法に匹敵する視覚的品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-08-24T08:04:19Z)
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images [54.56070204172398]
本稿では,3次元シーンをスタイリングするための簡易かつ効果的なパイプラインを提案する。我々は、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースNeRFモデルを精細化し、3Dスタイルの転送を行う。本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
論文参考訳（メタデータ） (2024-06-19T09:36:18Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文参考訳（メタデータ） (2024-05-08T12:25:21Z)
FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields [23.705795612467956]
FPRFは、任意の複数のスタイルの参照イメージを最適化することなく、大規模な3Dシーンをスタイリングする。 FPRFは、多彩な参照画像を持つ大規模シーンに対して、好適なフォトリアリスティック品質の3Dシーンスタイリングを実現する。
論文参考訳（メタデータ） (2024-01-10T19:27:28Z)
StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields [52.19291190355375]
StyleRF(Style Radiance Fields)は、革新的な3Dスタイル転送技術である。 3Dシーンを表現するために、高精細な特徴の明確なグリッドを使用し、ボリュームレンダリングによって高精細な幾何学を確実に復元することができる。グリッド機能は参照スタイルに従って変換され、それが直接的に高品質のゼロショットスタイルの転送につながる。
論文参考訳（メタデータ） (2023-03-19T08:26:06Z)
3DSNet: Unsupervised Shape-to-Shape 3D Style Transfer [66.48720190245616]
本稿では,3次元オブジェクト間のスタイル伝達のための学習に基づくアプローチを提案する。提案手法は点雲とメッシュの両方で新しい3次元形状を合成することができる。選択したドメインのマルチモーダルなスタイル分布を暗黙的に学習するために,我々の手法を拡張した。
論文参考訳（メタデータ） (2020-11-26T16:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。