論文の概要: VideoNeuMat: Neural Material Extraction from Generative Video Models
- arxiv url: http://arxiv.org/abs/2602.07272v1
- Date: Fri, 06 Feb 2026 23:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.540857
- Title: VideoNeuMat: Neural Material Extraction from Generative Video Models
- Title(参考訳): VideoNeuMat: 生成ビデオモデルからのニューラルマテリアル抽出
- Authors: Bowen Xue, Saeed Hadadan, Zheng Zeng, Fabrice Rousselle, Zahra Montazeri, Milos Hasan,
- Abstract要約: ビデオ拡散モデルから再利用可能なニューラルネットワーク資産を抽出する2段階パイプラインであるVideoNeuMatを提案する。
まず、制御されたカメラと照明トラジェクトリーの下のサンプルビデオを生成するために、大きなビデオモデルを微調整する。
第2に、より小さなWan 1.3Bビデオバックボーンから微調整された大再構成モデル(LRM)を用いて、これらのビデオからコンパクトなニューラルネットワーク材料を再構成する。
- 参考スコア(独自算出の注目度): 8.300347514555337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating photorealistic materials for 3D rendering requires exceptional artistic skill. Generative models for materials could help, but are currently limited by the lack of high-quality training data. While recent video generative models effortlessly produce realistic material appearances, this knowledge remains entangled with geometry and lighting. We present VideoNeuMat, a two-stage pipeline that extracts reusable neural material assets from video diffusion models. First, we finetune a large video model (Wan 2.1 14B) to generate material sample videos under controlled camera and lighting trajectories, effectively creating a "virtual gonioreflectometer" that preserves the model's material realism while learning a structured measurement pattern. Second, we reconstruct compact neural materials from these videos through a Large Reconstruction Model (LRM) finetuned from a smaller Wan 1.3B video backbone. From 17 generated video frames, our LRM performs single-pass inference to predict neural material parameters that generalize to novel viewing and lighting conditions. The resulting materials exhibit realism and diversity far exceeding the limited synthetic training data, demonstrating that material knowledge can be successfully transferred from internet-scale video models into standalone, reusable neural 3D assets.
- Abstract(参考訳): 3Dレンダリングのためのフォトリアリスティックな素材を作るには、例外的な芸術的スキルが必要です。
材料の生成モデルは役立つが、現時点では高品質のトレーニングデータがないため制限されている。
最近のビデオ生成モデルはリアルな素材の外観を熱心に作り出しているが、この知識は幾何学や照明と絡み合っている。
ビデオ拡散モデルから再利用可能なニューラルネットワーク資産を抽出する2段階パイプラインであるVideoNeuMatを提案する。
まず、大容量ビデオモデル(Wan 2.1 14B)を微調整し、制御されたカメラと照明軌道下で材料サンプル映像を生成し、構造化された測定パターンを学習しながらモデルの物質リアリズムを保存する「仮想ゴニオルエレクトロメータ」を効果的に作成する。
第2に、より小さなWan 1.3Bビデオバックボーンから微調整された大再構成モデル(LRM)を用いて、これらのビデオからコンパクトなニューラルネットワーク材料を再構成する。
LRMは17個のビデオフレームから単一パスの推論を行い、新しい視聴条件や照明条件に一般化するニューラルネットワークパラメータを予測する。
得られた材料は、限られた合成トレーニングデータを超えるリアリズムと多様性を示し、インターネット規模のビデオモデルからスタンドアロンで再利用可能なニューラル3Dアセットへの物質的知識の伝達に成功できることを実証した。
関連論文リスト
- SViM3D: Stable Video Material Diffusion for Single Image 3D Generation [48.986972061812004]
ビデオ拡散モデルは、1つの画像から3Dオブジェクトを効率的に再構成するのに成功している。
我々は,映像拡散モデルを拡張し,空間的に変化するPBRパラメータと表面正規度を,明示的なカメラ制御に基づいて各生成したビューと共同で出力する。
このユニークなセットアップにより、私たちのモデルをニューラルプリエントとして使用した3Dアセットのリライトと生成が可能になります。
論文 参考訳(メタデータ) (2025-10-09T14:29:47Z) - Large Material Gaussian Model for Relightable 3D Generation [54.10879517395551]
物理ベースレンダリング(PBR)素材を用いた高品質な3Dコンテンツ作成のための新しいフレームワークを提案する。
また,本手法は,ベースライン法に比べて視覚的魅力が向上するだけでなく,材料モデリングも向上し,下流レンダリングの実用化を可能にした。
論文 参考訳(メタデータ) (2025-09-26T09:35:12Z) - RealMat: Realistic Materials with Diffusion and Reinforcement Learning [15.780720815063262]
本稿では,現実的な先行情報を活用する拡散型物質生成装置であるRealMatを提案する。
まず,2倍の格子で配置された合成材料マップを用いて,予め訓練した安定拡散XL(SDXL)を微調整する。
本稿では,Regress Learning (RL) を通じてモデルをさらに微調整し,現実的な素材の創出を促すことを提案する。
論文 参考訳(メタデータ) (2025-09-01T05:04:51Z) - UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.34221167200259]
従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文 参考訳(メタデータ) (2025-01-16T08:00:17Z) - GenLit: Reformulating Single-Image Relighting as Video Generation [42.0880277180892]
我々は、映像生成モデルに光操作を行うためのグラフィックスエンジンの能力を蒸留するフレームワークであるGenLitを紹介する。
小さな合成データセットのみに微調整されたモデルが現実世界のシーンに一般化されることが分かりました。
論文 参考訳(メタデータ) (2024-12-15T15:40:40Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。