Fugu-MT 論文翻訳(概要): Collaborative Control for Geometry-Conditioned PBR Image Generation

論文の概要: Collaborative Control for Geometry-Conditioned PBR Image Generation

arxiv url: http://arxiv.org/abs/2402.05919v2
Date: Tue, 20 Feb 2024 11:33:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 19:25:05.047438
Title: Collaborative Control for Geometry-Conditioned PBR Image Generation
Title（参考訳）: PBR画像生成のための協調制御
Authors: Shimon Vainer, Mark Boss, Mathias Parger, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Nicolas Perony, Simon Donn\'e
Abstract要約: 本稿では,RGB 生成における測光的不正確さと,RGB から PBR を抽出する際の固有曖昧さを回避し,PBR 画像の直接分布をモデル化する。既存のクロスモーダル微調整のパラダイムは、データの欠如と出力モードの高次元性の両方のため、PBR生成には適していない。
参考スコア（独自算出の注目度）: 2.819997139208954
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Current 3D content generation approaches build on diffusion models that output RGB images. Modern graphics pipelines, however, require physically-based rendering (PBR) material properties. We propose to model the PBR image distribution directly, avoiding photometric inaccuracies in RGB generation and the inherent ambiguity in extracting PBR from RGB. Existing paradigms for cross-modal fine-tuning are not suited for PBR generation due to both a lack of data and the high dimensionality of the output modalities: we overcome both challenges by retaining a frozen RGB model and tightly linking a newly trained PBR model using a novel cross-network communication paradigm. As the base RGB model is fully frozen, the proposed method does not risk catastrophic forgetting during fine-tuning and remains compatible with techniques such as IPAdapter pretrained for the base RGB model. We validate our design choices, robustness to data sparsity, and compare against existing paradigms with an extensive experimental section.
Abstract（参考訳）: 現在の3Dコンテンツ生成アプローチはRGB画像を出力する拡散モデルに基づいている。しかし、現代のグラフィックスパイプラインは物理ベースのレンダリング(PBR)材料特性を必要とする。本稿では,RGB 生成における測光的不正確さと,RGB から PBR を抽出する際の固有曖昧さを回避し,PBR 画像の直接分布をモデル化する。データ不足と出力モダリティの高次元性の両方のため、既存のクロスモーダル微調整のパラダイムはPBR生成には適していない。我々は、凍結したRGBモデルを保持し、新しいクロスネットワーク通信パラダイムを用いて新しく訓練されたPBRモデルを強くリンクすることによって、両方の課題を克服する。ベースRGBモデルは完全に凍結されているため、提案手法は微調整中に破滅的な忘れをし、ベースRGBモデルのために事前訓練されたIPAdapterなどの技術と互換性がある。我々は、設計選択、データの分散性に対する堅牢性を検証し、広範な実験セクションで既存のパラダイムと比較する。

関連論文リスト

End-to-End RGB-IR Joint Image Compression With Channel-wise Cross-modality Entropy Model [39.52468600966148]
モダリティの数が増えると、必要なデータストレージと送信コストも2倍になる。本研究は,RGB-IR画像ペアのための共同圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T02:04:21Z)
PBR-SR: Mesh PBR Texture Super Resolution from 2D Image Priors [52.28858915766172]
PBR-SRは物理ベースレンダリング(PBR)テクスチャスーパーレゾリューション(SR)の新しい手法であるゼロショット方式で低解像度(LR)PBR入力から高解像度で高品質なPBRテクスチャを出力する。
論文参考訳（メタデータ） (2025-06-03T13:15:34Z)
IntrinsiX: High-Quality PBR Generation using Image Priors [49.90007540430264]
IntrinsiXはテキスト記述から高品質な内在画像を生成する新しい手法である。シーンライティングを内蔵した既存のテキスト・ツー・イメージモデルとは対照的に,本手法では物理ベースのレンダリング(PBR)マップを推定する。
論文参考訳（メタデータ） (2025-04-01T17:47:48Z)
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
UniRGB-IR: A Unified Framework for RGB-Infrared Semantic Tasks via Adapter Tuning [17.36726475620881]
我々は、RGB-IRセマンティックタスクを統合するために、UniRGB-IRと呼ばれる汎用的で効率的なフレームワークを提案する。よりリッチなRGB-IR機能を事前学習基盤モデルに効率的に導入する新しいアダプタを開発した。様々なRGB-IRダウンストリームタスクに対する実験結果から,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2024-04-26T12:21:57Z)
EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文参考訳（メタデータ） (2023-12-28T10:05:13Z)
Channel and Spatial Relation-Propagation Network for RGB-Thermal Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。 RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文参考訳（メタデータ） (2023-08-24T03:43:47Z)
Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。ストレージの要求が大きいため、一般ユーザからは広く採用されていない。本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-21T06:59:07Z)
Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-07T20:26:09Z)
High-Resolution Image Harmonization via Collaborative Dual Transformations [13.9962809174055]
協調デュアルトランスフォーメーション(CDTNet)を用いた高分解能画像調和ネットワークを提案する。我々のCDTNetは、画素間変換のための低解像度ジェネレータ、RGB-RGB変換のためのカラーマッピングモジュール、両方の利点を生かした改良モジュールから構成されている。
論文参考訳（メタデータ） (2021-09-14T13:18:58Z)
Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文参考訳（メタデータ） (2021-08-18T12:41:36Z)
BOP Challenge 2020 on 6D Object Localization [56.591561228575635]
BOP Challenge 2020は、RGB-D画像から6Dオブジェクトのポーズを推定する分野における現状を捉えることを目標とする、一連の公開コンペティションの3番目である。参加者はBlenderProc4BOPが生成した350Kのトレーニング画像、新しいオープンソースで軽量な物理ベース(PBR)と手続きデータジェネレータが提供された。トップパフォーマンスの手法はRGB-D画像チャンネルに依存しているが、トレーニングとテストの両方でRGBチャンネルのみを使用した場合、強い結果が得られた。
論文参考訳（メタデータ） (2020-09-15T22:35:14Z)
Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文参考訳（メタデータ） (2020-08-07T10:13:05Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。