論文の概要: Fashion Matrix: Editing Photos by Just Talking
- arxiv url: http://arxiv.org/abs/2307.13240v1
- Date: Tue, 25 Jul 2023 04:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:25:12.031234
- Title: Fashion Matrix: Editing Photos by Just Talking
- Title(参考訳): ファッションマトリクス: 話すだけで写真編集ができる
- Authors: Zheng Chong, Xujie Zhang, Fuwei Zhao, Zhenyu Xie and Xiaodan Liang
- Abstract要約: 我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。
Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。
Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
- 参考スコア(独自算出の注目度): 66.83502497764698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The utilization of Large Language Models (LLMs) for the construction of AI
systems has garnered significant attention across diverse fields. The extension
of LLMs to the domain of fashion holds substantial commercial potential but
also inherent challenges due to the intricate semantic interactions in
fashion-related generation. To address this issue, we developed a hierarchical
AI system called Fashion Matrix dedicated to editing photos by just talking.
This system facilitates diverse prompt-driven tasks, encompassing garment or
accessory replacement, recoloring, addition, and removal. Specifically, Fashion
Matrix employs LLM as its foundational support and engages in iterative
interactions with users. It employs a range of Semantic Segmentation Models
(e.g., Grounded-SAM, MattingAnything, etc.) to delineate the specific editing
masks based on user instructions. Subsequently, Visual Foundation Models (e.g.,
Stable Diffusion, ControlNet, etc.) are leveraged to generate edited images
from text prompts and masks, thereby facilitating the automation of fashion
editing processes. Experiments demonstrate the outstanding ability of Fashion
Matrix to explores the collaborative potential of functionally diverse
pre-trained models in the domain of fashion editing.
- Abstract(参考訳): AIシステム構築におけるLarge Language Models (LLM)の利用は、様々な分野において大きな注目を集めている。
LLMのファッション領域への拡張は、実質的な商業的可能性を秘めているが、ファッション関連世代における複雑な意味的相互作用による固有の課題もある。
この問題に対処するため、私たちはFashion Matrixと呼ばれる階層型AIシステムを開発しました。
このシステムは、衣服やアクセサリーの交換、塗り替え、追加、取り外しなど、多様なプロンプト駆動タスクを促進する。
具体的には、Fashion MatrixはLLMを基盤的サポートとして採用し、ユーザとの反復的なインタラクションに従事している。
セマンティックセグメンテーションモデル(例えば、Grounded-SAM、MattingAnythingなど)を用いて、ユーザー指示に基づいて特定の編集マスクを記述している。
その後、Visual Foundation Models(例えば、安定拡散、コントロールネットなど)を利用してテキストプロンプトやマスクから編集された画像を生成し、ファッション編集プロセスの自動化を容易にする。
実験はファッションマトリクスの優れた能力を示し、ファッション編集の分野における機能的に多様な事前学習モデルの協調可能性を探る。
関連論文リスト
- Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing [26.090574235851083]
Detail-Preserved Diffusion Models (DPDEdit) と呼ばれる潜在拡散モデルに基づく新しいファッション画像編集アーキテクチャを導入する。
DPDEditは、テキストプロンプト、地域マスク、人間のポーズイメージ、衣料品のテクスチャイメージを統合することで、拡散モデルのファッション画像生成をガイドする。
テクスチャのテクスチャの詳細を対象のファッションイメージに転送するために,テクスチャ注入と精細化機構を提案する。
論文 参考訳(メタデータ) (2024-09-02T09:15:26Z) - AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion [25.61572702219732]
ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。
現在の手法ではセグメンタやキーポイント抽出器のような補助的なツールが必要であり、柔軟性と統一されたフレームワークが欠如している。
本稿では,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:04:32Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。