論文の概要: Fashion Florence: Fine-Tuning Florence-2 for Structured Fashion Attribute Extraction
- arxiv url: http://arxiv.org/abs/2605.09827v1
- Date: Mon, 11 May 2026 00:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.439618
- Title: Fashion Florence: Fine-Tuning Florence-2 for Structured Fashion Attribute Extraction
- Title(参考訳): ファッションフローレンス:構造化ファッション属性抽出のための微調整フィレンス-2
- Authors: Anushree Berlia,
- Abstract要約: ファッションフローレンス(Fashion Florence)は、衣服の画像から構造化された視覚特性を抽出するために微調整されたフローレンス2言語モデルである。
微調整データは、iMaterialist Fashionデータセット(228ラベル)から導出される。
ModelはHugging Face Spaceとしてデプロイされ、オープンソースのコスチュームレコメンデーションシステムであるLoomに統合されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Fashion Florence, a Florence-2 vision-language model fine-tuned with LoRA to extract structured fashion attributes from clothing images. Given a single photograph, the model generates a JSON object containing category, color, material, style tags, and occasion tags, structured output suitable for direct programmatic consumption by downstream recommendation and retrieval systems. Fine-tuning data is derived from the iMaterialist Fashion dataset (228 labels), where we collapse fine-grained annotations into a compact 6-category, 16-color, 19-style schema via rule-based label engineering. We apply LoRA (r=16, alpha=32) to all decoder linear layers, training for 3 epochs on 3,688 examples. On a held-out test set of 461 images, Fashion Florence achieves 94.6% category accuracy and 63.0% material accuracy, compared to 89.3% / 43.3% for GPT-4o-mini and 87.4% for Gemini 2.5 Flash. Fashion Florence produces valid JSON in 99.8% of outputs while running at 0.77B parameters on a single GPU at zero marginal inference cost. Style tag F1 reaches 0.753 vs. 0.612 (Gemini) and 0.398 (GPT-4o-mini). The model is deployed as a Hugging Face Space and integrated into Loom, an open-source outfit recommendation system.
- Abstract(参考訳): 本稿では,Fashion Florenceについて述べる。Fashion FlorenceはLoRAで微調整されたFashence-2視覚言語モデルで,衣料品画像から構造化ファッション属性を抽出する。
1枚の写真が与えられたモデルでは、カテゴリ、色、素材、スタイルタグ、機会タグを含むJSONオブジェクトを生成し、下流のレコメンデーションと検索システムによって直接プログラムで消費するのに適した構造化された出力を生成する。
ファインチューニングデータは、iMaterialist Fashionデータセット(228ラベル)から派生したもので、粒度の細かいアノテーションを、ルールベースのラベルエンジニアリングによって、コンパクトな6カテゴリ、16カラー、19スタイルのスキーマに分解する。
すべてのデコーダ線形層にLoRA(r=16, α=32)を適用し,3,688例を対象に3エポックのトレーニングを行った。
461枚の画像に対して、Fashion Florenceは94.6%のカテゴリ精度と63.0%の材料精度を達成したが、GPT-4o-miniでは89.3% / 43.3%、Gemini 2.5 Flashでは87.4%であった。
Fashion Florenceは、出力の99.8%で有効なJSONを生成し、一方のGPU上の0.77Bパラメータを限界推論コストゼロで実行している。
スタイルタグ F1 は 0.753 対 0.612 (Gemini) と 0.398 (GPT-4o-mini) に達する。
このモデルはHugging Face Spaceとしてデプロイされ、オープンソースの衣装レコメンデーションシステムであるLoomに統合されている。
関連論文リスト
- Loom: Hybrid Retrieval-Scoring Outfit Recommendation with Semantic Material Compatibility and Occasion-Aware Embedding Priors [0.0]
Loomは、ニューラルネットワークの埋め込み検索と構造化されたドメインスコアを組み合わせた服装推薦システムである。
システムは、コモディティハードウェア上で5秒未満でスタイリスティックに異なる3つの衣装を生成する。
論文 参考訳(メタデータ) (2026-05-11T00:13:59Z) - Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework [0.0]
重要な課題は、しばしばファッション属性が条件付きであることです。
これは分類を試みる前に属性適用性を検出するモデルを必要とする。
この課題を分解する3層評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-22T07:33:41Z) - MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models [52.32146943039743]
人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
論文 参考訳(メタデータ) (2025-11-25T18:49:21Z) - Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis [0.4143603294943439]
大規模言語モデル(LLM)は、マルチモーダルデータの理解において顕著な能力を示している。
本稿では, 性能と速度, コスト効率のバランスをとる, 最先端のLCMのゼロショット評価について述べる。
Gemini 2.0 Flashは全ての属性で56.79%のマクロF1スコア、GPT-4o-miniは43.28%のマクロF1スコアで最大のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-07-14T05:59:50Z) - Diffusion Soup: Model Merging for Text-to-Image Diffusion Models [90.01635703779183]
シャードデータに基づいてトレーニングされた拡散モデルの重みを平均化する,テキスト・ツー・イメージ・ジェネレーションの複合化手法であるDiffusion Soupを提案する。
提案手法は,構築により,追加記憶や推論コストを伴わずに,無学習の連続学習とアンラーニングを可能にする。
論文 参考訳(メタデータ) (2024-06-12T17:16:16Z) - Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z) - 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and
Aesthetic Assessment on Integrated Circuit [17.471330378900657]
本論文では,ICDAR 2021ロバストリーディングチャレンジ-集積回路テキストスポッティングと審美評価への提案手法を提案する。
テキストスポッティングタスクでは、統合回路上で文字を検出し、yolov5検出モデルに基づいて分類する。
審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
論文 参考訳(メタデータ) (2021-04-08T06:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。