論文の概要: MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance
Field
- arxiv url: http://arxiv.org/abs/2309.13607v2
- Date: Tue, 28 Nov 2023 06:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:35:57.819024
- Title: MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance
Field
- Title(参考訳): MM-NeRF:マルチモーダルガイドによるニューラルラジアンス場の多次元移動
- Authors: Zijiang Yang, Zhongwei Qiu, Chang Xu, Dongmei Fu
- Abstract要約: 3Dスタイルの転送は、特定のスタイルで3Dシーンのスタイリングされたビューを生成することを目的としている。
既存の手法は、テクスチャの詳細とマルチモーダルガイダンスによるスタイル化による高品質なスタイル化の課題を依然として抱えている。
MM-NeRFと呼ばれるNeRFのマルチモーダル誘導型3次元多次元転送を提案する。
- 参考スコア(独自算出の注目度): 25.18088588418456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D style transfer aims to generate stylized views of 3D scenes with specified
styles, which requires high-quality generating and keeping multi-view
consistency. Existing methods still suffer the challenges of high-quality
stylization with texture details and stylization with multimodal guidance. In
this paper, we reveal that the common training method of stylization with NeRF,
which generates stylized multi-view supervision by 2D style transfer models,
causes the same object in supervision to show various states (color tone,
details, etc.) in different views, leading NeRF to tend to smooth the texture
details, further resulting in low-quality rendering for 3D multi-style
transfer. To tackle these problems, we propose a novel Multimodal-guided 3D
Multi-style transfer of NeRF, termed MM-NeRF. First, MM-NeRF projects
multimodal guidance into a unified space to keep the multimodal styles
consistency and extracts multimodal features to guide the 3D stylization.
Second, a novel multi-head learning scheme is proposed to relieve the
difficulty of learning multi-style transfer, and a multi-view style consistent
loss is proposed to track the inconsistency of multi-view supervision data.
Finally, a novel incremental learning mechanism to generalize MM-NeRF to any
new style with small costs. Extensive experiments on several real-world
datasets show that MM-NeRF achieves high-quality 3D multi-style stylization
with multimodal guidance, and keeps multi-view consistency and style
consistency between multimodal guidance. Codes will be released.
- Abstract(参考訳): 3dスタイル転送は、特定のスタイルで3dシーンのスタイル化されたビューを生成することを目的としている。
既存の手法は、テクスチャの詳細とマルチモーダルガイダンスによるスタイル化による高品質なスタイル化の課題を依然として抱えている。
本論文では,2次元スタイルの転送モデルによる多面的監視を生成するNeRFを用いた多面的スタイル化の一般的な訓練手法により,異なる視点における異なる状態(色調,詳細など)を同じオブジェクトに表示させることで,NeRFはテクスチャの細部を滑らかにし,さらに3次元多面的転送のための低品質レンダリングを実現する。
これらの問題に対処するため,MM-NeRFと呼ばれる新しいマルチモーダル誘導型3次元NeRFの多次元転送を提案する。
まず、mm-nerfはマルチモーダルスタイルの一貫性を保つためにマルチモーダルガイダンスを統一空間に投影し、3dスタイライゼーションを導くためにマルチモーダルな特徴を抽出する。
第二に,多視点監視データの一貫性の欠如を追跡するために,多視点学習の難易度を軽減すべく,新しい多視点学習方式を提案する。
最後に、MM-NeRFを小さなコストで新しいスタイルに一般化する新しいインクリメンタル学習機構を提案する。
複数の実世界のデータセットに対する大規模な実験により、MM-NeRFはマルチモーダルガイダンスによる高品質な3Dマルチスタイルのスタイリングを実現し、マルチビューの一貫性とマルチモーダルガイダンス間のスタイルの整合性を維持する。
コードはリリースされる。
関連論文リスト
- FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D
Neural Radiance Fields [23.705795612467956]
FPRFは、任意の複数のスタイルの参照イメージを最適化することなく、大規模な3Dシーンをスタイリングする。
FPRFは、多彩な参照画像を持つ大規模シーンに対して、好適なフォトリアリスティック品質の3Dシーンスタイリングを実現する。
論文 参考訳(メタデータ) (2024-01-10T19:27:28Z) - Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文 参考訳(メタデータ) (2023-11-23T00:53:11Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields [52.19291190355375]
StyleRF(Style Radiance Fields)は、革新的な3Dスタイル転送技術である。
3Dシーンを表現するために、高精細な特徴の明確なグリッドを使用し、ボリュームレンダリングによって高精細な幾何学を確実に復元することができる。
グリッド機能は参照スタイルに従って変換され、それが直接的に高品質のゼロショットスタイルの転送につながる。
論文 参考訳(メタデータ) (2023-03-19T08:26:06Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - NeRF-Art: Text-Driven Neural Radiance Fields Stylization [38.3724634394761]
簡単なテキストプロンプトで事前学習したNeRFモデルのスタイルを操作するテキスト誘導型NeRFスタイリング手法であるNeRF-Artを提案する。
本手法は, シングルビューのスタイリゼーション品質とクロスビューの整合性の両方に関して, 有効かつ堅牢であることを示す。
論文 参考訳(メタデータ) (2022-12-15T18:59:58Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image
Synthesis [92.25145204543904]
StyleNeRFは高解像度画像合成のための3次元認識型生成モデルである。
ニューラル放射場(NeRF)をスタイルベースジェネレータに統合する。
高品質な3D一貫性を維持しながら、対話的な速度で高解像度画像を合成することができる。
論文 参考訳(メタデータ) (2021-10-18T02:37:01Z) - 3DSNet: Unsupervised Shape-to-Shape 3D Style Transfer [66.48720190245616]
本稿では,3次元オブジェクト間のスタイル伝達のための学習に基づくアプローチを提案する。
提案手法は点雲とメッシュの両方で新しい3次元形状を合成することができる。
選択したドメインのマルチモーダルなスタイル分布を暗黙的に学習するために,我々の手法を拡張した。
論文 参考訳(メタデータ) (2020-11-26T16:59:12Z) - Distribution Aligned Multimodal and Multi-Domain Image Stylization [76.74823384524814]
マルチモーダルおよびマルチドメインスタイル転送のための統一フレームワークを提案する。
提案手法の鍵となるコンポーネントは,新しいスタイル分布アライメントモジュールである。
我々は,様々な芸術様式やジャンルで絵画の様式を伝達する枠組みを検証した。
論文 参考訳(メタデータ) (2020-06-02T07:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。