論文の概要: IntrinsicEdit: Precise generative image manipulation in intrinsic space
- arxiv url: http://arxiv.org/abs/2505.08889v1
- Date: Tue, 13 May 2025 18:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.267412
- Title: IntrinsicEdit: Precise generative image manipulation in intrinsic space
- Title(参考訳): IntrinsicEdit: Intrinsic空間における精密生成画像操作
- Authors: Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, Iliyan Georgiev,
- Abstract要約: そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。
我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。
我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
- 参考スコア(独自算出の注目度): 53.404235331886255
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative diffusion models have advanced image editing with high-quality results and intuitive interfaces such as prompts and semantic drawing. However, these interfaces lack precise control, and the associated methods typically specialize on a single editing task. We introduce a versatile, generative workflow that operates in an intrinsic-image latent space, enabling semantic, local manipulation with pixel precision for a range of editing operations. Building atop the RGB-X diffusion framework, we address key challenges of identity preservation and intrinsic-channel entanglement. By incorporating exact diffusion inversion and disentangled channel manipulation, we enable precise, efficient editing with automatic resolution of global illumination effects -- all without additional data collection or model fine-tuning. We demonstrate state-of-the-art performance across a variety of tasks on complex images, including color and texture adjustments, object insertion and removal, global relighting, and their combinations.
- Abstract(参考訳): 生成拡散モデルには、高品質な結果を伴う高度な画像編集と、プロンプトやセマンティック描画のような直感的なインタフェースがある。
しかし、これらのインタフェースには正確な制御がなく、関連するメソッドは一般的に1つの編集タスクに特化している。
そこで本研究では,固有画像の潜在空間で動作する汎用的生成ワークフローを導入し,様々な編集操作に対して,画素精度による局所的操作を可能にする。
RGB-X拡散フレームワーク上に構築する上で,本質的なチャネルの絡み合いとアイデンティティ保存の鍵となる課題に対処する。
正確な拡散反転と切り離されたチャネル操作を組み込むことで、グローバル照明効果の自動分解による正確で効率的な編集を可能にします。
我々は,色とテクスチャの調整,オブジェクト挿入と除去,グローバルリライト,それらの組み合わせなど,複雑な画像上でのさまざまなタスクにおける最先端性能を実証する。
関連論文リスト
- BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。