論文の概要: EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation
- arxiv url: http://arxiv.org/abs/2508.03497v1
- Date: Tue, 05 Aug 2025 14:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.014732
- Title: EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation
- Title(参考訳): EditGarment:自動MLLM合成と意味認識による命令ベースガーメント編集データセットの構築
- Authors: Deqiang Yin, Junyi Guo, Huanda Lu, Fangyu Wu, Dongming Lu,
- Abstract要約: 衣服編集のための自動データセットパイプラインを提案する。
まず,実世界のファッションに整合した6つの編集指導カテゴリを定義し,バランスの取れた命令イメージ三重項の生成を導く。
第二に、Fashion Edit Scoreは、衣服属性間のセマンティックな依存関係をキャプチャし、構築中に信頼できる監視を提供する意味認識評価指標である。
- 参考スコア(独自算出の注目度): 6.00676826743099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based garment editing enables precise image modifications via natural language, with broad applications in fashion design and customization. Unlike general editing tasks, it requires understanding garment-specific semantics and attribute dependencies. However, progress is limited by the scarcity of high-quality instruction-image pairs, as manual annotation is costly and hard to scale. While MLLMs have shown promise in automated data synthesis, their application to garment editing is constrained by imprecise instruction modeling and a lack of fashion-specific supervisory signals. To address these challenges, we present an automated pipeline for constructing a garment editing dataset. We first define six editing instruction categories aligned with real-world fashion workflows to guide the generation of balanced and diverse instruction-image triplets. Second, we introduce Fashion Edit Score, a semantic-aware evaluation metric that captures semantic dependencies between garment attributes and provides reliable supervision during construction. Using this pipeline, we construct a total of 52,257 candidate triplets and retain 20,596 high-quality triplets to build EditGarment, the first instruction-based dataset tailored to standalone garment editing. The project page is https://yindq99.github.io/EditGarment-project/.
- Abstract(参考訳): インストラクションベースの衣服編集は、ファッションデザインやカスタマイズに広く応用された自然言語による正確な画像修正を可能にする。
一般的な編集作業とは異なり、衣服固有の意味論や属性依存を理解する必要がある。
しかし、手動のアノテーションは高価でスケールが難しいため、高品質な命令イメージペアが不足しているため、進歩は限られている。
MLLMは自動データ合成において有望であることを示しているが、それらの衣服編集への応用は、不正確な命令モデリングとファッション固有の監督信号の欠如によって制限されている。
これらの課題に対処するために、衣服編集データセットを構築するための自動パイプラインを提案する。
まず、現実のファッションワークフローと整合した6つの編集命令カテゴリを定義し、バランスのとれた多様な命令イメージ三つ子の生成を導く。
第二に、Fashion Edit Scoreは、衣服属性間のセマンティックな依存関係をキャプチャし、構築中に信頼できる監視を提供する意味認識評価指標である。
このパイプラインを使用して、52,257個の候補三つ組を構築し、20,596個の高品質三つ組を保持して、スタンドアロンの衣服編集に適した最初のインストラクションベースのデータセットであるEditGarmentを構築する。
プロジェクトページはhttps://yindq99.github.io/EditGarment-project/。
関連論文リスト
- Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing [25.8179737362091]
既存のデータセットは通常、さまざまな自動化手法を使って構築され、ノイズの多い監視信号に繋がる。
近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。
本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-05T05:19:40Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - ChatGarment: Garment Estimation, Generation and Editing via Large Language Models [79.46056192947924]
ChatGarmentは、大規模な視覚言語モデル(VLM)を活用して、3D衣服の見積もり、生成、編集を自動化する新しいアプローチである。
ウィジェット内の画像やスケッチから縫製パターンを推定し、テキスト記述から生成し、ユーザー指示に基づいて衣服を編集することができる。
論文 参考訳(メタデータ) (2024-12-23T18:59:28Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文 参考訳(メタデータ) (2024-09-26T17:18:39Z) - CoEdIT: Text Editing by Task-Specific Instruction Tuning [18.824571167583432]
CoEdIT (CoEdIT) は、テキスト編集システムである。
所望のテキストの属性を指定するユーザから命令を受け取り、編集されたテキストを出力する。
テキスト編集のためのタスク固有の命令の多種多様なコレクションに基づいて,大規模言語モデルを提案する。
論文 参考訳(メタデータ) (2023-05-17T00:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。