Fugu-MT 論文翻訳(概要): MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field

論文の概要: MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field

arxiv url: http://arxiv.org/abs/2309.13607v1
Date: Sun, 24 Sep 2023 11:04:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 18:45:47.215437
Title: MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field
Title（参考訳）: MM-NeRF:マルチモーダルガイドによるニューラルラジアンス場の多次元移動
Authors: Zijiang Yang, Zhongwei Qiu, Chang Xu, Dongmei Fu
Abstract要約: 3Dスタイルの転送は、指定されたスタイルで3Dシーンの斬新なビューを描画することを目的としている。既存の方法は、画像から参照スタイルを与えることで、スタイル化されたニューラルレージアンスフィールド(NeRF)を学習する。 MM-NeRFと呼ばれる,テクスチャの細部で高品質なレンダリングを実現する,新しいマルチモーダル誘導型3次元NeRFのマルチスタイル転送を提案する。
参考スコア（独自算出の注目度）: 25.18088588418456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D style transfer aims to render stylized novel views of 3D scenes with the specified style, which requires high-quality rendering and keeping multi-view consistency. Benefiting from the ability of 3D representation from Neural Radiance Field (NeRF), existing methods learn the stylized NeRF by giving a reference style from an image. However, they suffer the challenges of high-quality stylization with texture details for multi-style transfer and stylization with multimodal guidance. In this paper, we reveal that the same objects in 3D scenes show various states (color tone, details, etc.) from different views after stylization since previous methods optimized by single-view image-based style loss functions, leading NeRF to tend to smooth texture details, further resulting in low-quality rendering. To tackle these problems, we propose a novel Multimodal-guided 3D Multi-style transfer of NeRF, termed MM-NeRF, which achieves high-quality 3D multi-style rendering with texture details and can be driven by multimodal-style guidance. First, MM-NeRF adopts a unified framework to project multimodal guidance into CLIP space and extracts multimodal style features to guide the multi-style stylization. To relieve the problem of lacking details, we propose a novel Multi-Head Learning Scheme (MLS), in which each style head predicts the parameters of the color head of NeRF. MLS decomposes the learning difficulty caused by the inconsistency of multi-style transfer and improves the quality of stylization. In addition, the MLS can generalize pre-trained MM-NeRF to any new styles by adding heads with small training costs (a few minutes). Extensive experiments on three real-world 3D scene datasets show that MM-NeRF achieves high-quality 3D multi-style stylization with multimodal guidance, keeps multi-view consistency, and keeps semantic consistency of multimodal style guidance. Codes will be released later.
Abstract（参考訳）: 3dスタイル転送は、3dシーンのスタイル化されたノベルビューを特定のスタイルで描画することを目的としている。ニューラルラジアンス場(NeRF)からの3次元表現能力から、既存の手法では、画像から参照スタイルを与えることで、スタイリングされたNeRFを学習する。しかし、マルチモーダルな指導によるマルチスタイル転送やスタイライゼーションのためのテクスチャの詳細を備えた高品質なスタイライゼーションの課題に苦しむ。本稿では,3Dシーンにおける同一のオブジェクトが,単一ビュー画像に基づくスタイル損失関数によって最適化された従来手法から,様々な状態(色調,詳細など)をスタイリゼーション後に示しており,NeRFはスムーズなテクスチャディテールを呈し,さらに低品質なレンダリングをもたらすことを示した。そこで本研究では, テクスチャディテールによる高品質な3dマルチスタイルレンダリングを実現し, マルチモーダル方式の指導により駆動できる, マルチモーダル誘導型3dマルチスタイルトランスファーmm-nerfを提案する。まず、MM-NeRFは、CLIP空間にマルチモーダルガイダンスを投影する統合フレームワークを採用し、マルチモーダルスタイルの特徴を抽出し、マルチモーダルスタイルのスタイル化を導く。そこで,本研究では,nerfのカラーヘッドのパラメータを各スタイルヘッドが予測するマルチヘッド学習方式(mls)を提案する。 MLSはマルチスタイル転送の不整合による学習困難を分解し、スタイリゼーションの品質を向上させる。さらに、MLSはトレーニングコストの少ないヘッド(数分)を追加することで、事前訓練されたMM-NeRFを新しいスタイルに一般化することができる。 3つの実世界の3Dシーンデータセットの大規模な実験により、MM-NeRFはマルチモーダルガイダンスによる高品質な3Dマルチスタイルのスタイリングを実現し、マルチビューの一貫性を維持し、マルチモーダルスタイルのガイダンスのセマンティック一貫性を維持する。コードは後日リリースされる。

関連論文リスト

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。 MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文参考訳（メタデータ） (2024-12-24T18:51:19Z)
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文参考訳（メタデータ） (2024-12-24T17:36:34Z)
Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning [12.43848969320173]
提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。本手法は,3次元情報のないスタイリング画像における構造情報と多視点整合性を効果的に保存する。
論文参考訳（メタデータ） (2024-11-15T12:02:07Z)
G3DST: Generalizing 3D Style Transfer with Neural Radiance Fields across Scenes and Styles [45.92812062685523]
既存の3Dスタイル転送の方法は、シングルまたは複数スタイルのシーンごとの広範な最適化が必要である。本研究では, シーンごとの最適化やスタイルごとの最適化を必要とせずに, NeRF からスタイリングされた新しいビューをレンダリングすることで, 既存の手法の限界を克服する。以上の結果から,本手法はシーンごとの手法に匹敵する視覚的品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-08-24T08:04:19Z)
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images [54.56070204172398]
本稿では,3次元シーンをスタイリングするための簡易かつ効果的なパイプラインを提案する。我々は、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースNeRFモデルを精細化し、3Dスタイルの転送を行う。本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
論文参考訳（メタデータ） (2024-06-19T09:36:18Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文参考訳（メタデータ） (2024-05-08T12:25:21Z)
FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields [23.705795612467956]
FPRFは、任意の複数のスタイルの参照イメージを最適化することなく、大規模な3Dシーンをスタイリングする。 FPRFは、多彩な参照画像を持つ大規模シーンに対して、好適なフォトリアリスティック品質の3Dシーンスタイリングを実現する。
論文参考訳（メタデータ） (2024-01-10T19:27:28Z)
StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields [52.19291190355375]
StyleRF(Style Radiance Fields)は、革新的な3Dスタイル転送技術である。 3Dシーンを表現するために、高精細な特徴の明確なグリッドを使用し、ボリュームレンダリングによって高精細な幾何学を確実に復元することができる。グリッド機能は参照スタイルに従って変換され、それが直接的に高品質のゼロショットスタイルの転送につながる。
論文参考訳（メタデータ） (2023-03-19T08:26:06Z)
3DSNet: Unsupervised Shape-to-Shape 3D Style Transfer [66.48720190245616]
本稿では,3次元オブジェクト間のスタイル伝達のための学習に基づくアプローチを提案する。提案手法は点雲とメッシュの両方で新しい3次元形状を合成することができる。選択したドメインのマルチモーダルなスタイル分布を暗黙的に学習するために,我々の手法を拡張した。
論文参考訳（メタデータ） (2020-11-26T16:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。