論文の概要: ChatGarment: Garment Estimation, Generation and Editing via Large Language Models
- arxiv url: http://arxiv.org/abs/2412.17811v1
- Date: Mon, 23 Dec 2024 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:41.110490
- Title: ChatGarment: Garment Estimation, Generation and Editing via Large Language Models
- Title(参考訳): ChatGarment: 大規模言語モデルによるガーメント推定,生成,編集
- Authors: Siyuan Bian, Chenghao Xu, Yuliang Xiu, Artur Grigorev, Zhen Liu, Cewu Lu, Michael J. Black, Yao Feng,
- Abstract要約: ChatGarmentは、大規模な視覚言語モデル(VLM)を活用して、3D衣服の見積もり、生成、編集を自動化する新しいアプローチである。
ウィジェット内の画像やスケッチから縫製パターンを推定し、テキスト記述から生成し、ユーザー指示に基づいて衣服を編集することができる。
- 参考スコア(独自算出の注目度): 79.46056192947924
- License:
- Abstract: We introduce ChatGarment, a novel approach that leverages large vision-language models (VLMs) to automate the estimation, generation, and editing of 3D garments from images or text descriptions. Unlike previous methods that struggle in real-world scenarios or lack interactive editing capabilities, ChatGarment can estimate sewing patterns from in-the-wild images or sketches, generate them from text descriptions, and edit garments based on user instructions, all within an interactive dialogue. These sewing patterns can then be draped into 3D garments, which are easily animatable and simulatable. This is achieved by finetuning a VLM to directly generate a JSON file that includes both textual descriptions of garment types and styles, as well as continuous numerical attributes. This JSON file is then used to create sewing patterns through a programming parametric model. To support this, we refine the existing programming model, GarmentCode, by expanding its garment type coverage and simplifying its structure for efficient VLM fine-tuning. Additionally, we construct a large-scale dataset of image-to-sewing-pattern and text-to-sewing-pattern pairs through an automated data pipeline. Extensive evaluations demonstrate ChatGarment's ability to accurately reconstruct, generate, and edit garments from multimodal inputs, highlighting its potential to revolutionize workflows in fashion and gaming applications. Code and data will be available at https://chatgarment.github.io/.
- Abstract(参考訳): 本稿では,大規模な視覚言語モデル(VLM)を活用する新しいアプローチであるChatGarmentを紹介し,画像やテキスト記述から3D衣服を推定・生成・編集する手法を提案する。
現実世界のシナリオに苦労したり、インタラクティブな編集機能が欠如していた従来の方法とは異なり、ChatGarmentは、ワイヤード内の画像やスケッチから縫製パターンを推定し、テキスト記述から生成し、ユーザーインストラクションに基づいて衣服を編集する。
縫製パターンを3Dの衣服にドラッグすれば、簡単にアニマブルでシミュレートできる。
これは、VLMを微調整して、服の種類とスタイルのテキスト記述と連続的な数値属性の両方を含むJSONファイルを生成することで実現される。
このJSONファイルを使用して、プログラミングパラメトリックモデルを通じてミシンパターンを生成する。
これをサポートするため、我々は既存のプログラミングモデルであるGarmentCodeを改良し、衣服型カバレッジを拡張し、効率的なVLM微調整のための構造を簡素化した。
さらに、自動データパイプラインを通して、画像から縫製パターンとテキストから縫製パターンのペアの大規模データセットを構築する。
大規模な評価は、ChatGarmentがマルチモーダル入力から衣服を正確に再構築、生成、編集する能力を示し、ファッションやゲームアプリケーションにおけるワークフローに革命をもたらす可能性を強調している。
コードとデータはhttps://chatgarment.github.io/.com/で入手できる。
関連論文リスト
- GarmentCodeData: A Dataset of 3D Made-to-Measure Garments With Sewing Patterns [18.513707884523072]
縫製パターンを用いた3次元計測服の大規模合成データセットについて述べる。
GarmentCodeDataには115,000のデータポイントがあり、さまざまなデザインをカバーしている。
高速なXPBDシミュレータに基づくオープンソースの3D衣料ドレーピングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-05-27T19:14:46Z) - GarmentDreamer: 3DGS Guided Garment Synthesis with Diverse Geometry and Texture Details [31.92583566128599]
伝統的な3D衣服の作成は、スケッチ、モデリング、紫外線マッピング、時間のかかるプロセスを含む労働集約型である。
本稿では,GarmentDreamerを提案する。GarmentDreamerは,テキストプロンプトから3D衣料を生成するためのガイダンスとして,3Dガウススプラッティング(GS)を利用する新しい手法である。
論文 参考訳(メタデータ) (2024-05-20T23:54:28Z) - DressCode: Autoregressively Sewing and Generating Garments from Text Guidance [61.48120090970027]
DressCodeは、初心者向けのデザインを民主化し、ファッションデザイン、バーチャルトライオン、デジタルヒューマン創造において大きな可能性を秘めている。
まず,テキスト条件の埋め込みとクロスアテンションを統合して縫製パターンを生成する,GPTベースのアーキテクチャであるSewingGPTを紹介する。
次に、トレーニング済みの安定拡散を調整し、タイルベースの衣服用物理レンダリング(PBR)テクスチャを生成します。
論文 参考訳(メタデータ) (2024-01-29T16:24:21Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - DrapeNet: Garment Generation and Self-Supervised Draping [95.0315186890655]
私たちは、複数の衣服をドレープするために単一のネットワークをトレーニングするために、セルフスーパービジョンに依存しています。
これは、生成ネットワークの潜時符号に条件付けられた3次元変形場を予測することで達成される。
私たちのパイプラインは、以前は目に見えなかったトポロジの衣服を生成および描画することができます。
論文 参考訳(メタデータ) (2022-11-21T09:13:53Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。