Fugu-MT 論文翻訳(概要): GeRM: A Generative Rendering Model From Physically Realistic to Photorealistic

論文の概要: GeRM: A Generative Rendering Model From Physically Realistic to Photorealistic

arxiv url: http://arxiv.org/abs/2604.09304v1
Date: Fri, 10 Apr 2026 13:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.873354
Title: GeRM: A Generative Rendering Model From Physically Realistic to Photorealistic
Title（参考訳）: GeRM: 物理的にリアルからフォトリアリスティックに進化するレンダリングモデル
Authors: Jiayuan Lu, Rengan Xie, Xuancheng Jin, Zhizhen Wu, Qi Ye, Tian Xie, Hujun Bao, Rui Wang. Yuchi Huo,
Abstract要約: 本稿では,P2Pギャップを緩和する問題,データ,アプローチについて述べる。 GeRMはGバッファのような物理的属性をテキストプロンプトとインクリメンタルインジェクションと統合し、制御可能なフォトリアリスティック画像を生成する。
参考スコア（独自算出の注目度）: 48.830521219487615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For decades, Physically-Based Rendering (PBR) is the fundation of synthesizing photorealisitic images, and therefore sometimes roughly referred as Photorealistic Rendering (PRR). While PBR is indeed a mathematical simulation of light transport that guarantees physical reality, photorealism has additional reliance on the realistic digital model of geometry and appearance of the real world, leaving a barely explored gap from PBR to PRR (P2P). Consequently, the path toward photorealism faces a critical dilemma: the explicit simulation of PRR encumbered by unreachable realistic digital models for real-world existence, while implicit generation models sacrifice controllability and geometric consistency. Based on this insight, this paper presents the problem, data, and approach of mitigating P2P gap, followed by the first multi-modal generative rendering model, dubbed GeRM, to unify PBR and PRR. GeRM integrates physical attributes like G-buffers with text prompts, and progressive incremental injection to generate controllable photorealistic images, allowing users to fluidly navigate the continuum between strict physical fidelity and perceptual photorealism. Technically, we model the transition between PBR and PRR images as a distribution transfer and aim to learn a distribution transfer vector field (DTV Field) to guide this process. To define the learning objective, we first leverage a multi-agent VLM framework to construct an expert-guided pairwise P2P transfer dataset, named P2P-50K, where each paired sample in the dataset corresponds to a transfer vector in the DTV Field. Subsequently, we propose a multi-condition ControlNet to learn the DTV Field, which synthesizes PBR images and progressively transitions them into PRR images, guided by G-buffers, text prompts, and cues for enhanced regions.
Abstract（参考訳）: 何十年もの間、PBR(Physically-Based Rendering)は、フォトリアリスティック画像の合成のための基金であり、それゆえ、概してフォトリアリスティックレンダリング(Photorealistic Rendering、PRR)と呼ばれることもある。 PBRは物理的現実性を保証する光輸送の数学的シミュレーションであるが、光リアリズムは、PBRからPRR(P2P)へのギャップをほとんど探ることなく、現実的な幾何学的デジタルモデルと現実世界の外観に依存している。その結果、光現実主義への道のりは重要なジレンマに直面している: PRR の明示的なシミュレーションは、現実の存在に対する到達不可能な現実的なデジタルモデルによって包含され、暗黙的な生成モデルは制御性と幾何的整合性を犠牲にする。本稿では,P2Pギャップを緩和する問題,データ,アプローチについて述べるとともに,PBRとPRRを統一するGeRMと呼ばれる最初のマルチモーダル生成レンダリングモデルについて述べる。 GeRMはGバッファのような物理的属性をテキストプロンプトとインクリメンタルインジェクションと統合し、制御可能なフォトリアリスティック画像を生成する。技術的には,PBR画像とPRR画像の遷移を分布伝達としてモデル化し,この過程の導出を目的とした分布伝達ベクトル場(DTVフィールド)の学習を目指す。学習目的を定義するために、まずマルチエージェントのVLMフレームワークを活用し、P2P-50Kという名前のP2P転送データセットを構築し、データセットの各ペアがDTVフィールド内の転送ベクトルに対応する。次に,PBR画像を合成し,Gバッファ,テキストプロンプト,拡張領域のキューによって誘導されるPRR画像に段階的に遷移するDTVフィールドを学習するための多条件制御ネットを提案する。

関連論文リスト

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer [62.18680935878919]
レンダリングを時間的に一貫した出力に変換するオンライン生成拡張フレームワークであるDiffusionHarmonizerを紹介した。コアとなるのは、単一のGPU上でオンラインシミュレータで実行可能な、一段階の時間的条件付きエンハンサーである。
論文参考訳（メタデータ） (2026-02-27T15:35:30Z)
PBR-SR: Mesh PBR Texture Super Resolution from 2D Image Priors [52.28858915766172]
PBR-SRは物理ベースレンダリング(PBR)テクスチャスーパーレゾリューション(SR)の新しい手法であるゼロショット方式で低解像度(LR)PBR入力から高解像度で高品質なPBRテクスチャを出力する。
論文参考訳（メタデータ） (2025-06-03T13:15:34Z)
Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。 PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文参考訳（メタデータ） (2025-03-14T04:33:59Z)
FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文参考訳（メタデータ） (2024-10-18T12:48:22Z)
Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。 TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。 RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文参考訳（メタデータ） (2024-04-05T08:52:32Z)
Progressive Transformation Learning for Leveraging Virtual Images in Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。 1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文参考訳（メタデータ） (2022-11-03T13:04:15Z)
Photo-realistic Neural Domain Randomization [37.42597274391271]
ニューラルレンダリングの最近の進歩は、フォトリアリスティック・ニューラルドメインランダム化(PNDR)と呼ばれる新しい統一アプローチを可能にしていることを示す。我々のアプローチはモジュラーであり、材料、照明、レンダリングのための異なるニューラルネットワークで構成されており、異なるキー画像生成コンポーネントを異なるパイプラインでランダム化することが可能である。実験の結果,PNDRを用いたトレーニングにより,新たなシーンへの一般化が可能であり,実世界移動の面では芸術の状況を大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-23T09:45:27Z)
Rethinking Blur Synthesis for Deep Real-World Image Deblurring [4.00114307523959]
本稿では,撮影過程をシミュレートする,新しいリアルなボケ合成パイプラインを提案する。機能領域における非局所的依存関係と局所的コンテキストを同時にキャプチャする効果的なデブロアリングモデルを開発する。 3つの実世界のデータセットに関する総合的な実験により、提案したデブロアリングモデルは最先端の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-09-28T06:50:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。