論文の概要: Training-Free Consistency Pipeline for Fashion Repose
- arxiv url: http://arxiv.org/abs/2501.13692v1
- Date: Thu, 23 Jan 2025 14:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:54.548189
- Title: Training-Free Consistency Pipeline for Fashion Repose
- Title(参考訳): ファッションリプレイスのための無トレーニング一貫性パイプライン
- Authors: Potito Aghilar, Vito Walter Anelli, Michelantonio Trizio, Tommaso Di Noia,
- Abstract要約: FashionReposeは、非厳格なポーズ編集のためのトレーニング不要のパイプラインである。
オフザシェルフモデルを統合して、長袖服のポーズを調整し、アイデンティティとブランディングの属性を維持する。
FashionReposeは、ゼロショットのアプローチを使用して、これらの編集をほぼリアルタイムで実行し、特別なトレーニングを不要にする。
- 参考スコア(独自算出の注目度): 9.61065600471628
- License:
- Abstract: Recent advancements in diffusion models have significantly broadened the possibilities for editing images of real-world objects. However, performing non-rigid transformations, such as changing the pose of objects or image-based conditioning, remains challenging. Maintaining object identity during these edits is difficult, and current methods often fall short of the precision needed for industrial applications, where consistency is critical. Additionally, fine-tuning diffusion models requires custom training data, which is not always accessible in real-world scenarios. This work introduces FashionRepose, a training-free pipeline for non-rigid pose editing specifically designed for the fashion industry. The approach integrates off-the-shelf models to adjust poses of long-sleeve garments, maintaining identity and branding attributes. FashionRepose uses a zero-shot approach to perform these edits in near real-time, eliminating the need for specialized training. consistent image editing. The solution holds potential for applications in the fashion industry and other fields demanding identity preservation in image editing.
- Abstract(参考訳): 拡散モデルの最近の進歩は、現実世界の物体の画像を編集する可能性を大幅に広げている。
しかし、オブジェクトのポーズの変更や画像ベースの条件付けなど、厳密でない変換の実行は依然として困難である。
これらの編集の間にオブジェクトのアイデンティティを維持することは困難であり、現在の手法は、一貫性が不可欠である産業アプリケーションに必要な正確さに欠けることが多い。
さらに、微調整拡散モデルでは、実世界のシナリオでは必ずしもアクセスできないカスタムトレーニングデータが必要である。
FashionReposeは、ファッション業界向けに特別に設計された、厳格でないポーズ編集のための、トレーニング不要のパイプラインである。
このアプローチは、市販のモデルを統合して、長袖服のポーズを調整し、アイデンティティとブランディング特性を維持する。
FashionReposeは、ゼロショットのアプローチを使用して、これらの編集をほぼリアルタイムで実行し、特別なトレーニングを不要にする。
一貫した画像編集
このソリューションは、ファッション業界や、画像編集におけるアイデンティティの保存を要求される他の分野の応用の可能性を秘めている。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Learning Feature-Preserving Portrait Editing from Generated Pairs [11.122956539965761]
そこで本研究では,自動生成ペアデータを活用して,所望の編集を学習する学習手法を提案する。
本手法は,最先端の品質を定量的かつ質的に達成する。
論文 参考訳(メタデータ) (2024-07-29T23:19:42Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Fashion Matrix: Editing Photos by Just Talking [66.83502497764698]
我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。
Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。
Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
論文 参考訳(メタデータ) (2023-07-25T04:06:25Z) - Realistic Saliency Guided Image Enhancement [32.446298454642985]
プロの写真家が行う一般的な編集作業には、邪魔な要素の強調や主題の強化が含まれる。
本稿では,様々なイメージタイプにまたがって高いリアリズムを維持するために,サリエンシ誘導画像強調のためのリアリズム損失を提案する。
私たちは、メモリフットプリントとランタイムを小さくしながら、自分たちのデータセットに対する最近のアプローチより優れています。
論文 参考訳(メタデータ) (2023-06-09T17:52:34Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Fashion-model pose recommendation and generation using Machine Learning [0.0]
本研究は、ファッションスタッフに対して、入力画像に基づく一連の類似したイメージを提案することに集中する。
画像は異なる部分に分割され、類似した画像がユーザに提案される。
これは、入力画像の色ヒストグラムを計算し、データセット内のすべての画像に同じものを適用することで達成された。
論文 参考訳(メタデータ) (2023-02-19T09:12:46Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。