論文の概要: Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework
- arxiv url: http://arxiv.org/abs/2601.15711v1
- Date: Thu, 22 Jan 2026 07:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.525483
- Title: Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework
- Title(参考訳): Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework
- Authors: Shubham Shukla, Kunal Sonalkar,
- Abstract要約: 重要な課題は、しばしばファッション属性が条件付きであることです。
これは分類を試みる前に属性適用性を検出するモデルを必要とする。
この課題を分解する3層評価フレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained attribute prediction is essential for fashion retail applications including catalog enrichment, visual search, and recommendation systems. Vision-Language Models (VLMs) offer zero-shot prediction without task-specific training, yet their systematic evaluation on multi-attribute fashion tasks remains underexplored. A key challenge is that fashion attributes are often conditional. For example, "outer fabric" is undefined when no outer garment is visible. This requires models to detect attribute applicability before attempting classification. We introduce a three-tier evaluation framework that decomposes this challenge: (1) overall task performance across all classes (including NA class: suggesting attribute is not applicable) for all attributes, (2) attribute applicability detection, and (3) fine-grained classification when attributes are determinable. Using DeepFashion-MultiModal, which explicitly defines NA (meaning attribute doesn't exist or is not visible) within attribute label spaces, we benchmark nine VLMs spanning flagship (GPT-5, Gemini 2.5 Pro), efficient (GPT-5 Mini, Gemini 2.5 Flash), and ultra-efficient tiers (GPT-5 Nano, Gemini 2.5 Flash-Lite) against classifiers trained on pretrained Fashion-CLIP embeddings on 5,000 images across 18 attributes. Our findings reveal that: (1) zero-shot VLMs achieve 64.0% macro-F1, a threefold improvement over logistic regression on pretrained Fashion-CLIP embeddings; (2) VLMs excel at fine-grained classification (Tier 3: 70.8% F1) but struggle with applicability detection (Tier 2: 34.1% NA-F1), identifying a key bottleneck; (3) efficient models achieve over 90% of flagship performance at lower cost, offering practical deployment paths. This diagnostic framework enables practitioners to pinpoint whether errors stem from visibility detection or classification, guiding targeted improvements for production systems.
- Abstract(参考訳): 詳細な属性予測は、カタログの充実、ビジュアル検索、レコメンデーションシステムを含むファッション小売アプリケーションにとって不可欠である。
VLM(Vision-Language Models)は、タスク固有のトレーニングを伴わないゼロショット予測を提供するが、多属性ファッションタスクの体系的評価は未熟である。
重要な課題は、しばしばファッション属性が条件付きであることです。
例えば、外装が見えない場合は「外装」は未定義である。
これは、分類を試みる前に属性適用性を検出するモデルを必要とする。
1)全ての属性に対するタスクパフォーマンス(NAクラス:提案属性は適用できない)、(2)属性適用性の検出、(3)属性が決定可能なときのきめ細かい分類。
属性ラベル空間内でNAを明示的に定義するDeepFashion-MultiModalを使用して、9つのVLMをフラグシップ(GPT-5, Gemini 2.5 Pro)、効率(GPT-5 Mini, Gemini 2.5 Flash)、超効率的なティア(GPT-5 Nano, Gemini 2.5 Flash-Lite)を、事前トレーニング済みのFashion-CLIP埋め込みでトレーニングされたクラスに対してベンチマークする。
その結果, 1) ゼロショットVLMは64.0%のマクロF1を達成し, 予め訓練したFashion-CLIP埋め込みのロジスティック回帰よりも3倍向上し, 2) VLMは細粒度分類で優れている(Tier 3: 70.8% F1)が, 適用性検出に苦慮している(Tier 2: 34.1% NA-F1)。
この診断フレームワークは、エラーが可視性検出や分類に起因するかどうかを特定できるようにし、運用システムの目標とする改善を導く。
関連論文リスト
- CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks [53.88194225946438]
Chain-of-Thought for Detection (CoT4Det)は、知覚タスクを3つの解釈可能なステップに再構成するシンプルだが効率的な戦略である。
一般的な視覚言語能力を損なうことなく,CoT4Detは認識性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-12-07T05:26:30Z) - Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography [0.764671395172401]
本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
論文 参考訳(メタデータ) (2025-09-23T09:23:31Z) - Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs [44.21486904657393]
AutoSEPは、きめ細かい分類機能を強化するために設計された、自己教師型プロンプト学習フレームワークである。
私たちの中核となる考え方は、ラベルのないデータを活用して、MLLMに重要な差別的特徴を特定するための説明プロンプトを学ぶことです。
AutoSEPは、標準のゼロショット分類よりも平均で13%、最高のパフォーマンスのベースラインよりも5%改善している。
論文 参考訳(メタデータ) (2025-06-01T09:04:07Z) - Super-class guided Transformer for Zero-Shot Attribute Classification [13.747720161654197]
ゼロショット属性分類におけるスケーラビリティと一般化性を高めるために,スーパークラスガイドトランスフォーマー(SugaFormer)を提案する。
SugaFormerは、クエリ数を減らすためにSuper-class Query Initialization (SQI)を採用し、多様なビジュアルキューを処理するためにMulti-context Decoding (MD)を組み込んでいる。
SugaFormerは、ゼロショットとクロスデータセット転送設定の下で、広く使われている3つの属性分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-10T05:53:32Z) - Boosting Vision-Language Models for Histopathology Classification: Predict all at once [11.644118356081531]
病理組織学における視覚言語モデルへのトランスダクティブアプローチを提案する。
私たちのアプローチは非常に効率的で、ほんの数秒で105ドルのパッチを処理します。
論文 参考訳(メタデータ) (2024-09-03T13:24:12Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。