Fugu-MT 論文翻訳(概要): Fashion Style Editing with Generative Human Prior

論文の概要: Fashion Style Editing with Generative Human Prior

arxiv url: http://arxiv.org/abs/2404.01984v1
Date: Tue, 2 Apr 2024 14:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 16:09:04.855372
Title: Fashion Style Editing with Generative Human Prior
Title（参考訳）: ジェネレーション・ヒューマン・プライオリティを用いたファッションスタイル編集
Authors: Chaerin Kong, Seungyong Lee, Soohyeok Im, Wonsuk Yang,
Abstract要約: 本研究の目的は,テキスト記述を用いた人間のイメージのファッションスタイルの操作である。具体的には、生成した人間の先行性を活用し、学習した潜在空間をナビゲートすることでファッションスタイルの編集を実現する。我々のフレームワークは、抽象的なファッション概念を人間のイメージにプロジェクションし、この分野にエキサイティングな新しいアプリケーションを導入することに成功している。
参考スコア（独自算出の注目度）: 9.854813629782681
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image editing has been a long-standing challenge in the research community with its far-reaching impact on numerous applications. Recently, text-driven methods started to deliver promising results in domains like human faces, but their applications to more complex domains have been relatively limited. In this work, we explore the task of fashion style editing, where we aim to manipulate the fashion style of human imagery using text descriptions. Specifically, we leverage a generative human prior and achieve fashion style editing by navigating its learned latent space. We first verify that the existing text-driven editing methods fall short for our problem due to their overly simplified guidance signal, and propose two directions to reinforce the guidance: textual augmentation and visual referencing. Combined with our empirical findings on the latent space structure, our Fashion Style Editing framework (FaSE) successfully projects abstract fashion concepts onto human images and introduces exciting new applications to the field.
Abstract（参考訳）: 画像編集は研究コミュニティで長年の課題であり、多くのアプリケーションに大きく影響している。近年、テキスト駆動方式は人間の顔のような領域で有望な結果をもたらし始めているが、より複雑な領域への適用は比較的限られている。そこで本研究では,人間の画像のファッションスタイルをテキスト記述を用いて操作することを目的とした,ファッションスタイル編集の課題について検討する。具体的には、生成した人間の先行性を活用し、学習した潜在空間をナビゲートすることでファッションスタイルの編集を実現する。まず,既存のテキスト駆動編集手法が,過度に単純化されたガイダンス信号により,我々の問題に乏しいことを検証し,テキスト拡張とビジュアル参照の2つの方法を提案する。我々のファッションスタイル編集フレームワーク(FaSE)は、潜在空間構造に関する経験的知見と相まって、人間のイメージに抽象的なファッション概念を投影し、この分野にエキサイティングな新しい応用をもたらすことに成功しました。

関連論文リスト

Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation [36.66066619847558]
ファッション業界は、顧客エクスペリエンスを高めるためにAIテクノロジーをますます採用している。 Fashion-RAGは、マルチモーダルなファッション画像編集に適した検索拡張型生成手法を導入するための最初の試みである。
論文参考訳（メタデータ） (2025-04-18T18:02:33Z)
Prompt Augmentation for Self-supervised Text-guided Image Manipulation [34.01939157351624]
本稿では,複数のターゲットプロンプトに単一入力プロンプトを増幅し,テキストコンテキストを強化し,局所的な画像編集を可能にするプロンプト拡張手法を提案する。本稿では,編集領域を分割し,保存領域を近くまで描画することで,効率的な画像編集を行うためのコントラストロスを提案する。拡散モデルに新たな損失が組み込まれ、公開データセット上の改善された、あるいは競合的な画像編集結果と、最先端のアプローチによる生成画像が示される。
論文参考訳（メタデータ） (2024-12-17T16:54:05Z)
TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文参考訳（メタデータ） (2024-08-28T17:59:02Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文参考訳（メタデータ） (2024-03-21T20:43:10Z)
AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文参考訳（メタデータ） (2023-12-13T09:45:58Z)
Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文参考訳（メタデータ） (2023-12-04T18:55:35Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文参考訳（メタデータ） (2023-11-09T15:50:52Z)
Fashion Matrix: Editing Photos by Just Talking [66.83502497764698]
我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。 Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。 Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
論文参考訳（メタデータ） (2023-07-25T04:06:25Z)
Text-guided Image-and-Shape Editing and Generation: A Short Survey [0.0]
機械学習の最近の進歩の中で、アーティストの編集意図はテキストによっても駆動される。本稿では,最先端(テキスト誘導)画像・形状生成技術に関する50以上の論文について概説する。
論文参考訳（メタデータ） (2023-04-18T19:11:36Z)
Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文参考訳（メタデータ） (2023-04-04T18:03:04Z)
FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。 FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文参考訳（メタデータ） (2023-01-05T15:33:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。