論文の概要: Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis
- arxiv url: http://arxiv.org/abs/2507.09950v2
- Date: Wed, 30 Jul 2025 04:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.35429
- Title: Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis
- Title(参考訳): GPT-4o mini と Gemini 2.0 Flash はファイングラインドファッション製品属性を予測できるか? ゼロショット解析
- Authors: Shubham Shukla, Kunal Sonalkar,
- Abstract要約: 大規模言語モデル(LLM)は、マルチモーダルデータの理解において顕著な能力を示している。
本稿では, 性能と速度, コスト効率のバランスをとる, 最先端のLCMのゼロショット評価について述べる。
Gemini 2.0 Flashは全ての属性で56.79%のマクロF1スコア、GPT-4o-miniは43.28%のマクロF1スコアで最大のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 0.4143603294943439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fashion retail business is centered around the capacity to comprehend products. Product attribution helps in comprehending products depending on the business process. Quality attribution improves the customer experience as they navigate through millions of products offered by a retail website. It leads to well-organized product catalogs. In the end, product attribution directly impacts the 'discovery experience' of the customer. Although large language models (LLMs) have shown remarkable capabilities in understanding multimodal data, their performance on fine-grained fashion attribute recognition remains under-explored. This paper presents a zero-shot evaluation of state-of-the-art LLMs that balance performance with speed and cost efficiency, mainly GPT-4o-mini and Gemini 2.0 Flash. We have used the dataset DeepFashion-MultiModal (https://github.com/yumingj/DeepFashion-MultiModal) to evaluate these models in the attribution tasks of fashion products. Our study evaluates these models across 18 categories of fashion attributes, offering insight into where these models excel. We only use images as the sole input for product information to create a constrained environment. Our analysis shows that Gemini 2.0 Flash demonstrates the strongest overall performance with a macro F1 score of 56.79% across all attributes, while GPT-4o-mini scored a macro F1 score of 43.28%. Through detailed error analysis, our findings provide practical insights for deploying these LLMs in production e-commerce product attribution-related tasks and highlight the need for domain-specific fine-tuning approaches. This work also lays the groundwork for future research in fashion AI and multimodal attribute extraction.
- Abstract(参考訳): ファッション小売業は、商品を理解する能力を中心にしている。
製品への貢献は、ビジネスプロセスに応じて製品を理解するのに役立ちます。
品質アトリビューションは、小売サイトが提供する何百万ものプロダクトをナビゲートすることで、顧客エクスペリエンスを向上させる。
それはよく組織された製品カタログにつながります。
結局のところ、製品への貢献は顧客の「発見体験」に直接影響を与えます。
大規模言語モデル (LLM) は, マルチモーダルデータの理解において顕著な能力を示したが, 微粒なファッション属性認識の性能はいまだに未解明のままである。
本稿では, GPT-4o-mini と Gemini 2.0 Flash を中心に, 性能と速度, コスト効率のバランスをとる最新の LLM をゼロショットで評価する。
DeepFashion-MultiModal(https://github.com/yumingj/DeepFashion-MultiModal)というデータセットを使って、ファッション製品の属性タスクでこれらのモデルを評価する。
本研究は、これらのモデルがファッション属性の18のカテゴリにまたがって評価し、これらのモデルがどのように優れているかについての洞察を提供する。
制約のある環境を作るために、製品情報のための唯一の入力としてイメージのみを使用します。
GPT-4o-miniは43.28%、マクロF1スコアは56.79%、マクロF1スコアは43.28%である。
詳細なエラー分析を通じて、本研究は、これらのLCMをeコマース製品属性関連タスクに展開するための実践的な洞察を提供し、ドメイン固有の微調整アプローチの必要性を強調した。
この研究は、ファッションAIとマルチモーダル属性抽出における将来の研究の基盤でもある。
関連論文リスト
- PAE: LLM-based Product Attribute Extraction for E-Commerce Fashion Trends [0.6445605125467574]
本稿では,PDF形式のテキストと画像からなる今後のトレンドレポートのための製品属性抽出アルゴリズムであるPAEを提案する。
a) 構造化されていないデータ(テキストと画像)から属性を抽出する効率的なフレームワークであるPAEを開発する; (b) 今後の属性値を用いて既存の属性を検出するためのBERT表現に基づくカタログマッチング方法論を提供する; (c) PAEが有効で柔軟性があり、同等以上の(92.5% F1-Score)フレームワークであることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:50:25Z) - AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant
Reviews and Images on Social Media [57.70351255180495]
AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。
FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。
この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
論文 参考訳(メタデータ) (2024-01-16T20:57:36Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。