論文の概要: Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.18421v1
- Date: Tue, 24 Dec 2024 13:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:54.578768
- Title: Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルを用いたFashionability-Enhancing Outfit ImageEditing
- Authors: Qice Qin, Yuki Hirakawa, Ryotaro Shimizu, Takuya Furusawa, Edgar Simo-Serra,
- Abstract要約: 本稿では,キー属性の制御を維持しつつ,ファッション性が向上したファッション画像を生成する,新しい拡散モデルに基づくアプローチを提案する。
本手法の主な構成要素は,1) ファッション性向上,2) ボディ特性の保存, 生成した画像の本来の形状と比率の維持, 3) 自動的なファッション最適化であり, 手動の入力や外部のプロンプトに依存しない。
- 参考スコア(独自算出の注目度): 8.632093933229678
- License:
- Abstract: Image generation in the fashion domain has predominantly focused on preserving body characteristics or following input prompts, but little attention has been paid to improving the inherent fashionability of the output images. This paper presents a novel diffusion model-based approach that generates fashion images with improved fashionability while maintaining control over key attributes. Key components of our method include: 1) fashionability enhancement, which ensures that the generated images are more fashionable than the input; 2) preservation of body characteristics, encouraging the generated images to maintain the original shape and proportions of the input; and 3) automatic fashion optimization, which does not rely on manual input or external prompts. We also employ two methods to collect training data for guidance while generating and evaluating the images. In particular, we rate outfit images using fashionability scores annotated by multiple fashion experts through OpenSkill-based and five critical aspect-based pairwise comparisons. These methods provide complementary perspectives for assessing and improving the fashionability of the generated images. The experimental results show that our approach outperforms the baseline Fashion++ in generating images with superior fashionability, demonstrating its effectiveness in producing more stylish and appealing fashion images.
- Abstract(参考訳): ファッション領域における画像生成は、主に身体特性の保存や入力プロンプトの追跡に重点を置いているが、出力画像の本来のファッション性を改善することにはほとんど注目されていない。
本稿では,キー属性の制御を維持しつつ,ファッション性が向上したファッション画像を生成する,新しい拡散モデルに基づくアプローチを提案する。
我々の方法の主な構成要素は以下のとおりである。
1) ファッション性の向上は,生成した画像が入力よりもファッショナブルであることを保証する。
2 身体特性の保存、生成した画像の原形及び入力比率の維持を促すこと。
3) 手動入力や外部プロンプトに依存しない自動ファッション最適化。
また、画像の生成と評価をしながら、ガイダンスのためのトレーニングデータを収集する2つの手法も採用している。
特に、OpenSkillと5つの重要なアスペクトベースのペアワイズ比較を通じて、複数のファッション専門家がアノテートしたファッション性スコアを用いて、衣料品画像を評価する。
これらの手法は、生成した画像のファッション性を評価し改善するための相補的な視点を提供する。
提案手法は,ファッション性に優れた画像を生成する上で,Fashion++のベースラインよりも優れており,よりスタイリッシュで魅力的なファッション画像を生成する上での有効性が示されている。
関連論文リスト
- Personalized Fashion Recommendation with Image Attributes and Aesthetics Assessment [15.423307815155534]
利用可能な情報、特に画像を2つのグラフ属性に変換することで、より正確なファッションレコメンデーションを提供することを目指している。
画像とテキストを2つのコンポーネントとして分離する従来の手法と比較して,提案手法は画像とテキスト情報を組み合わせてよりリッチな属性グラフを作成する。
IQON3000データセットの予備実験により,提案手法はベースラインと比較して競争精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-06T15:31:10Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。
ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。
この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文 参考訳(メタデータ) (2024-09-11T17:58:50Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models [1.8817715864806608]
本研究では、2つの異なる大言語モデルと、ファッション画像作成のための安定拡散モデルを用いて、カスタマイズされたファッション記述を生成する手法について検討する。
AI駆動のファッションクリエイティビティにおける適応性を強調して、ゼロショットや少数ショット学習といったテクニックの促進に重点を置いています。
評価は、CLIPscoreのような定量的メトリクスと質的な人間の判断を組み合わせることで、創造性、コヒーレンス、さまざまなスタイルの美的魅力を強調します。
論文 参考訳(メタデータ) (2024-07-20T17:37:51Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - FashionTex: Controllable Virtual Try-on with Text and Texture [29.7855591607239]
テキストとテクスチャの両方の利点を多段階のファッション操作に組み合わせたマルチモーダル・インタラクティブ・セッティングを提案する。
FashionTexフレームワークは、アノテーション付きのペアトレーニングデータなしで、布の種類や局所的なテクスチャパターンを意味的に制御することができる。
論文 参考訳(メタデータ) (2023-05-08T04:10:36Z) - M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing [51.033376763225675]
我々は、マルチモーダル制御のスタイルの事前知識と柔軟性を、1つの統合された2段階フレームワーク M6-Fashion に適用し、実践的なAI支援型ファッションデザインに焦点を当てる。
M6-Fashionは、非自己回帰生成の自己補正を利用して、推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。
論文 参考訳(メタデータ) (2022-05-24T01:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。