論文の概要: A Controllable Appearance Representation for Flexible Transfer and Editing
- arxiv url: http://arxiv.org/abs/2504.15028v1
- Date: Mon, 21 Apr 2025 11:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:19:26.116206
- Title: A Controllable Appearance Representation for Flexible Transfer and Editing
- Title(参考訳): フレキシブルトランスファーと編集のための制御可能な外観表現
- Authors: Santiago Jimenez-Navarro, Julia Guerrero-Viu, Belen Masia,
- Abstract要約: 本稿では,コンパクトな潜在空間内での材料外観の解釈可能な表現を計算する手法を提案する。
この表現は、適応されたFacterVAEを用いて自己教師型で学習される。
本モデルは, 材料外観と照明を効果的に符号化することにより, 強い絡み合いと解釈可能性を示す。
- 参考スコア(独自算出の注目度): 0.44241702149260353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method that computes an interpretable representation of material appearance within a highly compact, disentangled latent space. This representation is learned in a self-supervised fashion using an adapted FactorVAE. We train our model with a carefully designed unlabeled dataset, avoiding possible biases induced by human-generated labels. Our model demonstrates strong disentanglement and interpretability by effectively encoding material appearance and illumination, despite the absence of explicit supervision. Then, we use our representation as guidance for training a lightweight IP-Adapter to condition a diffusion pipeline that transfers the appearance of one or more images onto a target geometry, and allows the user to further edit the resulting appearance. Our approach offers fine-grained control over the generated results: thanks to the well-structured compact latent space, users can intuitively manipulate attributes such as hue or glossiness in image space to achieve the desired final appearance.
- Abstract(参考訳): 本稿では,高コンパクトかつ不整合な潜在空間内での材料外観の解釈可能な表現を計算する手法を提案する。
この表現は、適応されたFacterVAEを用いて自己教師型で学習される。
我々は、人間が生成したラベルによって引き起こされるバイアスを避けるために、慎重に設計されたラベルなしデータセットでモデルをトレーニングする。
本モデルは, 明示的な監督がないにもかかわらず, 材料外観と照明を効果的に符号化することで, 強い絡み合いと解釈可能性を示す。
そこで我々は,1つ以上の画像の外観を対象のジオメトリに転送する拡散パイプラインを条件として,軽量IP-アダプタをトレーニングするためのガイダンスとして,我々の表現を用いる。
提案手法は,画像空間における色調や光沢度などの属性を直感的に操作することで,所望の最終的な外観を実現する。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild [29.23745176017559]
例題ベースセマンティック画像合成は、例題の外観を保ちながら意味内容と整合した画像を生成する。
最近のチューニングフリーアプローチでは、暗黙のクロスイメージマッチングを通じて局所的な外観を転送することでこの問題に対処している。
そこで本稿では,AM-Adapterを用いて,先進的なセマンティック画像合成手法を提案する。
論文 参考訳(メタデータ) (2024-12-04T09:17:47Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - FilterPrompt: A Simple yet Efficient Approach to Guide Image Appearance Transfer in Diffusion Models [20.28288267660839]
FilterPromptは、制御可能な生成の効果を高めるためのアプローチである。
どんな拡散モデルにも適用可能で、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - Intrinsic Image Diffusion for Indoor Single-view Material Estimation [55.276815106443976]
室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。
1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。
提案手法は,PSNRで1.5dB$,アルベド予測で45%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。
論文 参考訳(メタデータ) (2023-12-19T15:56:19Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - High-fidelity GAN Inversion with Padding Space [38.9258619444968]
GAN(Generative Adversarial Network)の反転は、事前訓練されたジェネレータを用いた幅広い画像編集作業を容易にする。
既存の手法では、通常、反転空間としてGANの潜伏空間を用いるが、空間詳細の回復は不十分である。
本稿では, 潜伏空間を空間情報で補うため, ジェネレータのパディング空間を包含することを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:32:12Z) - Weakly But Deeply Supervised Occlusion-Reasoned Parametric Layouts [87.370534321618]
複雑な道路シーンのRGBイメージをインプットとして単一の視点で捉えたエンドツーエンドのネットワークを提案し、パースペクティブ空間における閉塞性のあるレイアウトを創出する。
私たちのメソッドで必要とされる唯一の人間のアノテーションは、より安価で入手しにくいパラメトリック属性です。
私たちは、KITTIとNuScenesという2つの公開データセットのアプローチを検証し、人間の監督を大幅に低下させることで、最先端の結果を実現します。
論文 参考訳(メタデータ) (2021-04-14T09:32:29Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。