論文の概要: Uni-Renderer: Unifying Rendering and Inverse Rendering Via Dual Stream Diffusion
- arxiv url: http://arxiv.org/abs/2412.15050v2
- Date: Thu, 26 Dec 2024 03:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:04.989613
- Title: Uni-Renderer: Unifying Rendering and Inverse Rendering Via Dual Stream Diffusion
- Title(参考訳): Uni-Renderer:デュアルストリーム拡散によるレンダリングと逆レンダリングの統合
- Authors: Zhifei Chen, Tianshuo Xu, Wenhang Ge, Leyi Wu, Dongyu Yan, Jing He, Luozhou Wang, Lu Zeng, Shunsi Zhang, Yingcong Chen,
- Abstract要約: レンダリングと逆レンダリングはコンピュータビジョンとグラフィックスにおいて重要なタスクである。
本稿では、2つの条件生成タスクとしてレンダリングと逆レンダリングを共同でモデル化するデータ駆動手法を提案する。
トレーニングと推論のコードをオープンソースとして公開し、この分野のさらなる研究と開発を後押しします。
- 参考スコア(独自算出の注目度): 14.779121995147056
- License:
- Abstract: Rendering and inverse rendering are pivotal tasks in both computer vision and graphics. The rendering equation is the core of the two tasks, as an ideal conditional distribution transfer function from intrinsic properties to RGB images. Despite achieving promising results of existing rendering methods, they merely approximate the ideal estimation for a specific scene and come with a high computational cost. Additionally, the inverse conditional distribution transfer is intractable due to the inherent ambiguity. To address these challenges, we propose a data-driven method that jointly models rendering and inverse rendering as two conditional generation tasks within a single diffusion framework. Inspired by UniDiffuser, we utilize two distinct time schedules to model both tasks, and with a tailored dual streaming module, we achieve cross-conditioning of two pre-trained diffusion models. This unified approach, named Uni-Renderer, allows the two processes to facilitate each other through a cycle-consistent constrain, mitigating ambiguity by enforcing consistency between intrinsic properties and rendered images. Combined with a meticulously prepared dataset, our method effectively decomposition of intrinsic properties and demonstrates a strong capability to recognize changes during rendering. We will open-source our training and inference code to the public, fostering further research and development in this area.
- Abstract(参考訳): レンダリングと逆レンダリングはコンピュータビジョンとグラフィックの両方において重要なタスクである。
レンダリング方程式は、2つのタスクの中核であり、固有特性からRGB画像への理想的な条件分布伝達関数である。
既存のレンダリング手法の有望な結果を得たにもかかわらず、特定のシーンの理想的な推定値を近似するだけで、計算コストが高い。
さらに、逆条件分布の移動は、固有のあいまいさのために難解である。
これらの課題に対処するために,1つの拡散フレームワーク内での2つの条件生成タスクとしてレンダリングと逆レンダリングを共同でモデル化するデータ駆動手法を提案する。
UniDiffuserにインスパイアされた我々は、両方のタスクをモデル化するために2つの異なる時間スケジュールを使い、2つの事前訓練された拡散モデルのクロスコンディショニングを実現する。
この統一されたアプローチはUni-Rendererと呼ばれ、2つのプロセスがサイクル一貫性の制約を通じて相互に促進し、固有の特性とレンダリングされた画像の一貫性を強制することによって曖昧さを緩和する。
本手法は,精密に構築されたデータセットと組み合わせることで,本質的な特性を効果的に分解し,レンダリング中の変化を認識できることを実証する。
トレーニングと推論のコードをオープンソースとして公開し、この分野のさらなる研究と開発を後押しします。
関連論文リスト
- Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models [39.127620891450526]
マルチモーダルデータ生成と濃密な視覚知覚の両方を扱うために,統一的で汎用的な拡散型フレームワークDiff-2-in-1を導入する。
また,従来のトレーニングセットの分布を反映したマルチモーダルデータを作成するために,デノナイジングネットワークを利用することにより,マルチモーダル生成による識別的視覚知覚をさらに強化する。
論文 参考訳(メタデータ) (2024-11-07T18:59:53Z) - Discrete Modeling via Boundary Conditional Diffusion Processes [29.95155303262501]
従来のアプローチは、離散データと継続的モデリングの相違に悩まされてきた。
本稿では,まず境界を先行分布として推定する2段階の前進過程を提案する。
次に前方軌道を再スケールして境界条件拡散モデルを構築する。
論文 参考訳(メタデータ) (2024-10-29T09:42:42Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - How Image Generation Helps Visible-to-Infrared Person Re-Identification? [15.951145523749735]
Flow2Flowは、V2Iの人物ReIDのためのトレーニングサンプル拡張とモダリティ間の画像生成を共同で実現するフレームワークである。
生成した画像の同一性アライメントとモダリティアライメントの目的で、Flow2Flowをトレーニングするための対角的トレーニング戦略を開発する。
SYSU-MM01とRegDBの実験結果から、トレーニングサンプル展開とクロスモダリティ画像生成の両方がV2I ReID精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-04T13:09:29Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。