論文の概要: IntrinsiX: High-Quality PBR Generation using Image Priors
- arxiv url: http://arxiv.org/abs/2504.01008v1
- Date: Tue, 01 Apr 2025 17:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:32.359708
- Title: IntrinsiX: High-Quality PBR Generation using Image Priors
- Title(参考訳): IntrinsiX:画像プリミティブを用いた高品質PBR生成
- Authors: Peter Kocsis, Lukas Höllein, Matthias Nießner,
- Abstract要約: IntrinsiXはテキスト記述から高品質な内在画像を生成する新しい手法である。
シーンライティングを内蔵した既存のテキスト・ツー・イメージモデルとは対照的に,本手法では物理ベースのレンダリング(PBR)マップを推定する。
- 参考スコア(独自算出の注目度): 49.90007540430264
- License:
- Abstract: We introduce IntrinsiX, a novel method that generates high-quality intrinsic images from text description. In contrast to existing text-to-image models whose outputs contain baked-in scene lighting, our approach predicts physically-based rendering (PBR) maps. This enables the generated outputs to be used for content creation scenarios in core graphics applications that facilitate re-lighting, editing, and texture generation tasks. In order to train our generator, we exploit strong image priors, and pre-train separate models for each PBR material component (albedo, roughness, metallic, normals). We then align these models with a new cross-intrinsic attention formulation that concatenates key and value features in a consistent fashion. This allows us to exchange information between each output modality and to obtain semantically coherent PBR predictions. To ground each intrinsic component, we propose a rendering loss which provides image-space signals to constrain the model, thus facilitating sharp details also in the output BRDF properties. Our results demonstrate detailed intrinsic generation with strong generalization capabilities that outperforms existing intrinsic image decomposition methods used with generated images by a significant margin. Finally, we show a series of applications, including re-lighting, editing, and text-conditioned room-scale PBR texture generation.
- Abstract(参考訳): IntrinsiXはテキスト記述から高品質な内在画像を生成する新しい手法である。
シーンライティングを内蔵した既存のテキスト・ツー・イメージモデルとは対照的に,本手法では物理ベースのレンダリング(PBR)マップを推定する。
これにより、生成した出力は、リライト、編集、テクスチャ生成タスクを容易にするコアグラフィックアプリケーションのコンテンツ作成シナリオに使用できる。
各PBR材料成分(アルベド, 粗さ, 金属, 正常物)について, 強い画像先行モデルと事前訓練したモデルを用いて, 発電機を訓練する。
次に、これらのモデルに、キーとバリューの特徴を一貫した方法で結合する、新たな相互依存型アテンションの定式化を加えます。
これにより、各出力モード間で情報を交換し、セマンティックコヒーレントなPBR予測を得ることができる。
そこで本研究では,各固有成分を基底として,画像空間の信号でモデルを制約し,出力BRDF特性のシャープな詳細化を容易にするレンダリング損失を提案する。
以上の結果から,既存の画像を用いた画像分解法よりも高い精度で精度を向上できる,高度な一般化機能を備えた固有画像生成手法が得られた。
最後に、リライト、編集、テキストコンディショニングされた部屋スケールPBRテクスチャ生成など、一連のアプリケーションを示す。
関連論文リスト
- Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [56.862552362223425]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文 参考訳(メタデータ) (2025-02-20T04:22:30Z) - MatCLIP: Light- and Shape-Insensitive Assignment of PBR Material Models [42.42328559042189]
MatCLIPは、PBR材料の形状や光に敏感な記述子を抽出し、画像に基づいて可塑性テクスチャを3Dオブジェクトに割り当てる新しい手法である。
そこで本研究では,PBR表現の領域を写真や描画でブリッジする記述子を生成する。
MatCLIPの分類精度は76.6%で、PhotoShapeやMatAtlasのような最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-27T12:08:52Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering [47.78392889256976]
Paint-itは3Dレンダリングのためのテキスト駆動の高忠実なテクスチャマップ合成法である。
Paint-itはScore-Distillation Sampling(SDS)を利用してテキスト記述からテクスチャマップを合成する
我々は,DC-PBRがテクスチャ周波数に応じて最適化カリキュラムをスケジュールし,SDSからノイズ信号を自然にフィルタすることを示した。
論文 参考訳(メタデータ) (2023-12-18T17:17:08Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Light Sampling Field and BRDF Representation for Physically-based Neural
Rendering [4.440848173589799]
物理ベースのレンダリング(PBR)は、コンピュータグラフィックス資産の詳細な現実的なシーンを展示するために業界で広く使われている没入型レンダリングエフェクトの鍵である。
本稿では,学習光サンプリングフィールドにおける光サンプリング戦略を通じて,直接的および間接的な光を局所的にモデル化する新しい照明表現を提案する。
次に,提案した表現を,標準の顔アセットとHDRIを入力とし,出力として写真リアリスティックなレンダリングを生成する,エンドツーエンドの物理ベースニューラルフェイススキンシェーダを用いて実装する。
論文 参考訳(メタデータ) (2023-04-11T19:54:50Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。