論文の概要: AIpparel: A Large Multimodal Generative Model for Digital Garments
- arxiv url: http://arxiv.org/abs/2412.03937v3
- Date: Mon, 16 Dec 2024 02:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:11.525790
- Title: AIpparel: A Large Multimodal Generative Model for Digital Garments
- Title(参考訳): AIpparel: デジタルガーメントのための大規模マルチモーダル生成モデル
- Authors: Kiyohiro Nakayama, Jan Ackermann, Timur Levent Kesdogan, Yang Zheng, Maria Korosteleva, Olga Sorkine-Hornung, Leonidas J. Guibas, Guandao Yang, Gordon Wetzstein,
- Abstract要約: 縫製パターンの生成と編集のための大規模なマルチモーダルモデルであるAIpparelを紹介する。
当社のモデルでは,12万以上のユニークな衣服をカスタマイズした大規模データセット上で,最先端の大規模マルチモーダルモデルを微調整する。
本稿では,これらの複雑な縫製パターンを簡潔に符号化し,LLMが効率的に予測できる新しいトークン化手法を提案する。
- 参考スコア(独自算出の注目度): 71.12933771326279
- License:
- Abstract: Apparel is essential to human life, offering protection, mirroring cultural identities, and showcasing personal style. Yet, the creation of garments remains a time-consuming process, largely due to the manual work involved in designing them. To simplify this process, we introduce AIpparel, a large multimodal model for generating and editing sewing patterns. Our model fine-tunes state-of-the-art large multimodal models (LMMs) on a custom-curated large-scale dataset of over 120,000 unique garments, each with multimodal annotations including text, images, and sewing patterns. Additionally, we propose a novel tokenization scheme that concisely encodes these complex sewing patterns so that LLMs can learn to predict them efficiently. AIpparel achieves state-of-the-art performance in single-modal tasks, including text-to-garment and image-to-garment prediction, and enables novel multimodal garment generation applications such as interactive garment editing. The project website is at georgenakayama.github.io/AIpparel/.
- Abstract(参考訳): アパレルは人間の生活に不可欠であり、保護を提供し、文化的なアイデンティティを反映し、個人的なスタイルを誇示している。
しかし、衣料品の製作には時間を要するプロセスが残っており、その主な原因は手作業による設計である。
このプロセスを簡単にするために、縫製パターンの生成と編集のための大規模なマルチモーダルモデルであるAIpparelを導入する。
当社のモデルでは,テキスト,画像,縫製パターンなどのマルチモーダルアノテーションを備えた,12万以上のユニークな衣服をカスタマイズした大規模データセット上に,最先端の大規模マルチモーダルモデル(LMM)を微調整する。
さらに, これらの複雑な縫製パターンを簡潔に符号化し, LLMが効率的に予測できる新しいトークン化手法を提案する。
AIpparelは、テキスト・ツー・ガーデニングや画像・ツー・ガーデメントの予測など、単一モーダルタスクにおける最先端のパフォーマンスを実現し、インタラクティブな衣服編集などの新しいマルチモーダル・ウェア・ジェネレーション・アプリケーションを実現する。
プロジェクトウェブサイトは Georgenakayama.github.io/AIpparel/ にある。
関連論文リスト
- ChatGarment: Garment Estimation, Generation and Editing via Large Language Models [79.46056192947924]
ChatGarmentは、大規模な視覚言語モデル(VLM)を活用して、3D衣服の見積もり、生成、編集を自動化する新しいアプローチである。
ウィジェット内の画像やスケッチから縫製パターンを推定し、テキスト記述から生成し、ユーザー指示に基づいて衣服を編集することができる。
論文 参考訳(メタデータ) (2024-12-23T18:59:28Z) - Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation [52.13927859375693]
テキストプロンプト,体形,着物スケッチによって制御される縫製パターンを生成するマルチモーダル生成モデルであるSwingLDMを提案する。
潜伏空間における縫製パターンの分布を学習するために,2段階のトレーニング戦略を設計する。
総合的定性的および定量的実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T02:05:28Z) - Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis [27.1965932507935]
大規模マルチモーダルモデル(LMM)に基づく新しい縫製パターン生成手法を提案する。
LMMは多様な設計インプットを解釈するための直感的なインタフェースを提供する。
パターン作成プログラムは、よく構造化され、意味的に意味のあるミシンパターンの表現として機能する。
論文 参考訳(メタデータ) (2024-12-11T18:26:45Z) - Multi-Garment Customized Model Generation [3.1679243514285194]
マルチゲージカスタマイズモデル生成は、潜在拡散モデル(LDM)に基づく統合フレームワークである
本フレームワークは,脱結合型マルチガーメント機能融合による複数衣服の条件生成を支援する。
提案する衣料エンコーダは,他の拡張モジュールと組み合わせることができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2024-08-09T17:57:33Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Towards Garment Sewing Pattern Reconstruction from a Single Image [76.97825595711444]
ガーメント縫製パターンは、衣服の本質的な休息形態を表しており、ファッションデザイン、バーチャルトライオン、デジタルアバターといった多くの用途のコアとなっている。
まず,SewFactoryという多目的データセットを合成した。
次に、縫製パターン予測性能を大幅に向上させるSewformerと呼ばれる2レベルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-07T18:59:51Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。