論文の概要: Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control
- arxiv url: http://arxiv.org/abs/2410.06985v1
- Date: Wed, 9 Oct 2024 15:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:07:19.437388
- Title: Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control
- Title(参考訳): 協調制御を用いた多視点PBR集合体の共同生成
- Authors: Shimon Vainer, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Slava Elizarov, Simon Donné,
- Abstract要約: 協調制御は、通常のバンプマップを含むPBR画像の確率分布を直接モデル化する。
本稿では,このモデルをマルチビューで一貫した設計決定について論じ,アブレーション研究におけるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 1.8692054990918074
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-view consistency remains a challenge for image diffusion models. Even within the Text-to-Texture problem, where perfect geometric correspondences are known a priori, many methods fail to yield aligned predictions across views, necessitating non-trivial fusion methods to incorporate the results onto the original mesh. We explore this issue for a Collaborative Control workflow specifically in PBR Text-to-Texture. Collaborative Control directly models PBR image probability distributions, including normal bump maps; to our knowledge, the only diffusion model to directly output full PBR stacks. We discuss the design decisions involved in making this model multi-view consistent, and demonstrate the effectiveness of our approach in ablation studies, as well as practical applications.
- Abstract(参考訳): 画像拡散モデルにおいて、マルチビュー一貫性は依然として課題である。
完璧な幾何学的対応が先行するテキスト・ツー・テクスチュア問題においても、多くの手法はビューをまたいで整列した予測を得られず、その結果を元のメッシュに組み込むには非自明な融合法が必要である。
PBRテキスト・トゥ・テクスチャに特化して協調制御ワークフローを実現するために,この問題について検討する。
協調制御は、通常のバンプマップを含むPBR画像の確率分布を直接モデル化する。
本稿では,このモデルをマルチビューに一貫性を持たせるための設計決定について論じ,アブレーション研究におけるアプローチの有効性と実践的応用について述べる。
関連論文リスト
- EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models [42.55874233756394]
我々は,B Brownian-Bridge Diffusion Models (EBDM) を用いたExemplar-Guided Image Translation という新しい手法を提案する。
提案手法は, 所定の初期点を有する拡散過程を構造制御としてブラウンブリッジプロセスとして定式化し, 与えられた模範画像のみに条件付けしながら, 対応するフォトリアリスティック画像に変換する。
論文 参考訳(メタデータ) (2024-10-13T11:10:34Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance [9.214785726215942]
テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出するための,新しい拡散型生成フレームワークを提案する。
多様な高品質なPBR素材生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力を統合することである。
教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
論文 参考訳(メタデータ) (2024-04-23T02:04:53Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models [48.10798436003449]
テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
論文 参考訳(メタデータ) (2023-12-11T01:42:15Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。