論文の概要: Collaborative Control for Geometry-Conditioned PBR Image Generation
- arxiv url: http://arxiv.org/abs/2402.05919v2
- Date: Tue, 20 Feb 2024 11:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:25:05.047438
- Title: Collaborative Control for Geometry-Conditioned PBR Image Generation
- Title(参考訳): PBR画像生成のための協調制御
- Authors: Shimon Vainer, Mark Boss, Mathias Parger, Konstantin Kutsy, Dante De
Nigris, Ciara Rowles, Nicolas Perony, Simon Donn\'e
- Abstract要約: 本稿では,RGB 生成における測光的不正確さと,RGB から PBR を抽出する際の固有曖昧さを回避し,PBR 画像の直接分布をモデル化する。
既存のクロスモーダル微調整のパラダイムは、データの欠如と出力モードの高次元性の両方のため、PBR生成には適していない。
- 参考スコア(独自算出の注目度): 2.819997139208954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current 3D content generation approaches build on diffusion models that
output RGB images. Modern graphics pipelines, however, require physically-based
rendering (PBR) material properties. We propose to model the PBR image
distribution directly, avoiding photometric inaccuracies in RGB generation and
the inherent ambiguity in extracting PBR from RGB. Existing paradigms for
cross-modal fine-tuning are not suited for PBR generation due to both a lack of
data and the high dimensionality of the output modalities: we overcome both
challenges by retaining a frozen RGB model and tightly linking a newly trained
PBR model using a novel cross-network communication paradigm. As the base RGB
model is fully frozen, the proposed method does not risk catastrophic
forgetting during fine-tuning and remains compatible with techniques such as
IPAdapter pretrained for the base RGB model. We validate our design choices,
robustness to data sparsity, and compare against existing paradigms with an
extensive experimental section.
- Abstract(参考訳): 現在の3Dコンテンツ生成アプローチはRGB画像を出力する拡散モデルに基づいている。
しかし、現代のグラフィックスパイプラインは物理ベースのレンダリング(PBR)材料特性を必要とする。
本稿では,RGB 生成における測光的不正確さと,RGB から PBR を抽出する際の固有曖昧さを回避し,PBR 画像の直接分布をモデル化する。
データ不足と出力モダリティの高次元性の両方のため、既存のクロスモーダル微調整のパラダイムはPBR生成には適していない。我々は、凍結したRGBモデルを保持し、新しいクロスネットワーク通信パラダイムを用いて新しく訓練されたPBRモデルを強くリンクすることによって、両方の課題を克服する。
ベースRGBモデルは完全に凍結されているため、提案手法は微調整中に破滅的な忘れをし、ベースRGBモデルのために事前訓練されたIPAdapterなどの技術と互換性がある。
我々は、設計選択、データの分散性に対する堅牢性を検証し、広範な実験セクションで既存のパラダイムと比較する。
関連論文リスト
- UniRGB-IR: A Unified Framework for Visible-Infrared Downstream Tasks via Adapter Tuning [17.22733823085519]
我々は、RGB-IRダウンストリームタスクを統合するために、UniRGB-IRと呼ばれるスケーラブルで効率的なフレームワークを提案する。
我々のフレームワークは、トランスフォーマー(ViT)基盤モデル、マルチモーダル・フィーチャープール(SFI)モジュール、サプリメント・フィーチャー(SFI)モジュールで構成される。
様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - Ternary-type Opacity and Hybrid Odometry for RGB-only NeRF-SLAM [62.23809541385653]
3次型不透明度が課題に適している理由と課題について検討する。
本稿では,ボリュームとワープに基づく画像レンダリングを併用した,シンプルながら斬新なビジュアルオドメトリー手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Generative Diffusion Prior for Unified Image Restoration and Enhancement [62.76390152617949]
既存の画像復元法は、主に自然画像の後方分布を利用する。
教師なしサンプリング方式で後部分布を効果的にモデル化するための生成拡散優先(GDP)を提案する。
GDPは、線形逆問題、非線形問題、ブラインド問題を解くために、プレトレインデノナイジング拡散生成モデル(DDPM)を利用する。
論文 参考訳(メタデータ) (2023-04-03T16:52:43Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Creating Artificial Modalities to Solve RGB Liveness [79.9255035557979]
我々は,スプーフ検出のためのエンドツーエンドパイプラインと組み合わせて,ランクプーリングと光流の2種類の人工変換を導入する。
提案手法は, 最大のクロスセクニティ対面アンチスプーフィングデータセットCASIA-SURF CeFA (RGB) の最先端化を実現する。
論文 参考訳(メタデータ) (2020-06-29T13:19:22Z) - Geometric Proxies for Live RGB-D Stream Enhancement and Consolidation [7.920114031312631]
RGB-Dデータの統合リアルタイム処理のための幾何学的スーパー構造を提案する。
我々のアプローチは、検出された幾何学的プロキシ上でパラメータ化された1組のコンパクトな局所統計集合の生成と更新である。
本稿では,最近のオープンなRGB-Dデータセットにおいて,異なる性質の屋内シーンで実施した実験について述べる。
論文 参考訳(メタデータ) (2020-01-21T14:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。