論文の概要: FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering
- arxiv url: http://arxiv.org/abs/2512.16670v1
- Date: Thu, 18 Dec 2025 15:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.130646
- Title: FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering
- Title(参考訳): FrameDiffuser: ニューラルフォワードフレームレンダリングのためのGバッファ共振拡散
- Authors: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch,
- Abstract要約: 本稿では,時間的に一貫したフォトリアリスティックなフレームを生成する自動回帰型ニューラルレンダリングフレームワークであるFrameDiffuserを紹介する。
我々は、モデルを個別の環境に特化し、広範囲な一般化よりも一貫性と推論速度を優先する。
- 参考スコア(独自算出の注目度): 7.4570191712029965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
- Abstract(参考訳): インタラクティブなアプリケーションのためのニューラルレンダリングでは、幾何学的および物質的特性(Gバッファ)を、フレーム単位でリアルなライティングを持つフォトリアリスティックな画像に変換する必要がある。
RGBXのような単一イメージモデルは、時間的一貫性なしにフレームを独立して生成するのに対して、DiffusionRendererのようなビデオモデルは、ほとんどのコンシューマーゲームセットでは計算コストがかかりすぎて、前もって完全なシーケンスを必要とするため、将来のフレームがユーザ入力に依存するインタラクティブアプリケーションには適さない。
本稿では,Gバッファデータとモデル自身の以前の出力を条件に,時間的に一貫したフォトリアリスティックなフレームを生成する自動回帰型ニューラルネットワークフレームワークであるFrameDiffuserを紹介する。
最初のフレームの後、FrameDiffuserは、幾何、材料、表面特性からなるGバッファーデータに対して純粋に操作し、それ以前に生成されたフレームを時間的ガイダンスに使用し、数百から数千のフレームに対して安定した時間的一貫した生成を維持する。
我々のデュアルコンディショニングアーキテクチャは、構造誘導のためのControlNetと時間的コヒーレンスのためのControlLoRAを組み合わせる。
3段階のトレーニング戦略により、安定した自己回帰生成が可能となる。
我々は,我々のモデルを個別の環境に特化し,広範囲な一般化よりも一貫性と推論速度を優先し,環境固有の訓練が,一般化されたアプローチに比べて正確な照明,影,反射によって優れた光現実的品質を達成できることを実証する。
関連論文リスト
- Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - GFFE: G-buffer Free Frame Extrapolation for Low-latency Real-time Rendering [14.496161390319065]
我々は、新しいフレームワークと効率的なニューラルネットワークを備えたGFFEを提案し、追加のレイテンシを導入することなく、新しいフレームをリアルタイムで生成する。
動的フラグメントと異なる種類の非閉塞の運動を分析し、対応するモジュールを設計する。
排他物を充填した後、遮蔽補正網を用いて遮蔽を補正し、全体的な品質を改善する。
論文 参考訳(メタデータ) (2024-05-23T18:35:26Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。