論文の概要: PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling
- arxiv url: http://arxiv.org/abs/2504.14219v1
- Date: Sat, 19 Apr 2025 08:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:09:00.466573
- Title: PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling
- Title(参考訳): PRISM:光リアルリコンストラクションと本質的なシーンモデリングのための統一フレームワーク
- Authors: Alara Dirik, Tuanfeng Wang, Duygu Ceylan, Stefanos Zafeiriou, Anna Frühstück,
- Abstract要約: PRISMは、単一のモデルで複数の画像生成および編集タスクを可能にする統一されたフレームワークである。
テキスト-to-RGBX生成、RGB-to-X分解、X-to-RGBX条件生成など、さまざまなタスクをサポートする。
- 参考スコア(独自算出の注目度): 43.00079951897522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PRISM, a unified framework that enables multiple image generation and editing tasks in a single foundational model. Starting from a pre-trained text-to-image diffusion model, PRISM proposes an effective fine-tuning strategy to produce RGB images along with intrinsic maps (referred to as X layers) simultaneously. Unlike previous approaches, which infer intrinsic properties individually or require separate models for decomposition and conditional generation, PRISM maintains consistency across modalities by generating all intrinsic layers jointly. It supports diverse tasks, including text-to-RGBX generation, RGB-to-X decomposition, and X-to-RGBX conditional generation. Additionally, PRISM enables both global and local image editing through conditioning on selected intrinsic layers and text prompts. Extensive experiments demonstrate the competitive performance of PRISM both for intrinsic image decomposition and conditional image generation while preserving the base model's text-to-image generation capability.
- Abstract(参考訳): PRISMは、単一の基礎モデルで複数の画像生成および編集タスクを可能にする統合されたフレームワークである。
PRISMは、事前訓練されたテキスト・ツー・イメージ拡散モデルから、RGB画像と本質的な地図(X層)を同時に生成するための効果的な微調整戦略を提案する。
PRISMは、個別に固有の特性を推定したり、分解と条件生成の別々のモデルを必要とする従来の手法とは異なり、すべての固有の層を共同で生成することで、モジュラリティ間の整合性を維持する。
テキスト-to-RGBX生成、RGB-to-X分解、X-to-RGBX条件生成など、さまざまなタスクをサポートする。
さらに、PRISMは、選択した固有のレイヤとテキストプロンプトを条件付けすることで、グローバルとローカルの両方のイメージ編集を可能にする。
広汎な実験により、PRISMは、基本モデルのテキスト・ツー・イメージ生成能力を保ちながら、本質的な画像分解と条件付き画像生成の両面での競合性能を示す。
関連論文リスト
- IntrinsiX: High-Quality PBR Generation using Image Priors [49.90007540430264]
IntrinsiXはテキスト記述から高品質な内在画像を生成する新しい手法である。
シーンライティングを内蔵した既存のテキスト・ツー・イメージモデルとは対照的に,本手法では物理ベースのレンダリング(PBR)マップを推定する。
論文 参考訳(メタデータ) (2025-04-01T17:47:48Z) - RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。
カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文 参考訳(メタデータ) (2025-03-13T14:31:52Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Chameleon: Mixed-Modal Early-Fusion Foundation Models [0.0]
任意の任意の順序で画像やテキストを理解・生成できる早期融合トークンベースの混合モードモデル群を提示する。
モデルは、視覚的質問応答、画像キャプション、テキスト生成、画像生成、長期混合モーダル生成など、包括的なタスクに基づいて評価される。
論文 参考訳(メタデータ) (2024-05-16T05:23:41Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - A Robust Image Forensic Framework Utilizing Multi-Colorspace Enriched Vision Transformer for Distinguishing Natural and Computer-Generated Images [0.0]
本稿では、リッチな視覚変換器を利用して、自然画像と生成画像の区別を行う頑健な法科学分類手法を提案する。
提案手法は,各クラスの評価において,94.25%の検定精度と有意な性能向上を示す。
この研究は、自然な画像と生成された画像を区別する汎用的でレジリエントなソリューションを提供することにより、画像鑑定の最先端を推し進める。
論文 参考訳(メタデータ) (2023-08-14T17:11:17Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。