Fugu-MT 論文翻訳(概要): Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis

論文の概要: Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis

arxiv url: http://arxiv.org/abs/2507.09950v2
Date: Wed, 30 Jul 2025 04:37:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 14:05:51.35429
Title: Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis
Title（参考訳）: GPT-4o mini と Gemini 2.0 Flash はファイングラインドファッション製品属性を予測できるか? ゼロショット解析
Authors: Shubham Shukla, Kunal Sonalkar,
Abstract要約: 大規模言語モデル(LLM)は、マルチモーダルデータの理解において顕著な能力を示している。本稿では, 性能と速度, コスト効率のバランスをとる, 最先端のLCMのゼロショット評価について述べる。 Gemini 2.0 Flashは全ての属性で56.79%のマクロF1スコア、GPT-4o-miniは43.28%のマクロF1スコアで最大のパフォーマンスを示している。
参考スコア（独自算出の注目度）: 0.4143603294943439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The fashion retail business is centered around the capacity to comprehend products. Product attribution helps in comprehending products depending on the business process. Quality attribution improves the customer experience as they navigate through millions of products offered by a retail website. It leads to well-organized product catalogs. In the end, product attribution directly impacts the 'discovery experience' of the customer. Although large language models (LLMs) have shown remarkable capabilities in understanding multimodal data, their performance on fine-grained fashion attribute recognition remains under-explored. This paper presents a zero-shot evaluation of state-of-the-art LLMs that balance performance with speed and cost efficiency, mainly GPT-4o-mini and Gemini 2.0 Flash. We have used the dataset DeepFashion-MultiModal (https://github.com/yumingj/DeepFashion-MultiModal) to evaluate these models in the attribution tasks of fashion products. Our study evaluates these models across 18 categories of fashion attributes, offering insight into where these models excel. We only use images as the sole input for product information to create a constrained environment. Our analysis shows that Gemini 2.0 Flash demonstrates the strongest overall performance with a macro F1 score of 56.79% across all attributes, while GPT-4o-mini scored a macro F1 score of 43.28%. Through detailed error analysis, our findings provide practical insights for deploying these LLMs in production e-commerce product attribution-related tasks and highlight the need for domain-specific fine-tuning approaches. This work also lays the groundwork for future research in fashion AI and multimodal attribute extraction.
Abstract（参考訳）: ファッション小売業は、商品を理解する能力を中心にしている。製品への貢献は、ビジネスプロセスに応じて製品を理解するのに役立ちます。品質アトリビューションは、小売サイトが提供する何百万ものプロダクトをナビゲートすることで、顧客エクスペリエンスを向上させる。それはよく組織された製品カタログにつながります。結局のところ、製品への貢献は顧客の「発見体験」に直接影響を与えます。大規模言語モデル (LLM) は, マルチモーダルデータの理解において顕著な能力を示したが, 微粒なファッション属性認識の性能はいまだに未解明のままである。本稿では, GPT-4o-mini と Gemini 2.0 Flash を中心に, 性能と速度, コスト効率のバランスをとる最新の LLM をゼロショットで評価する。 DeepFashion-MultiModal(https://github.com/yumingj/DeepFashion-MultiModal)というデータセットを使って、ファッション製品の属性タスクでこれらのモデルを評価する。本研究は、これらのモデルがファッション属性の18のカテゴリにまたがって評価し、これらのモデルがどのように優れているかについての洞察を提供する。制約のある環境を作るために、製品情報のための唯一の入力としてイメージのみを使用します。 GPT-4o-miniは43.28%、マクロF1スコアは56.79%、マクロF1スコアは43.28%である。詳細なエラー分析を通じて、本研究は、これらのLCMをeコマース製品属性関連タスクに展開するための実践的な洞察を提供し、ドメイン固有の微調整アプローチの必要性を強調した。この研究は、ファッションAIとマルチモーダル属性抽出における将来の研究の基盤でもある。

関連論文リスト

Machine Generated Product Advertisements: Benchmarking LLMs Against Human Performance [0.6091702876917279]
本研究は,多面的評価モデルを用いて,AIによる製品記述と人手による製品記述の性能を比較した。我々は、4つのAIモデルによって生成された100の製品について、サンプル記述と非サンプル記述による記述を、人間による記述に対して分析する。その結果,ChatGPT 4が最高性能を示した。
論文参考訳（メタデータ） (2024-12-27T12:11:50Z)
Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文参考訳（メタデータ） (2024-09-23T12:28:40Z)
PAE: LLM-based Product Attribute Extraction for E-Commerce Fashion Trends [0.6445605125467574]
本稿では,PDF形式のテキストと画像からなる今後のトレンドレポートのための製品属性抽出アルゴリズムであるPAEを提案する。 a) 構造化されていないデータ(テキストと画像)から属性を抽出する効率的なフレームワークであるPAEを開発する; (b) 今後の属性値を用いて既存の属性を検出するためのBERT表現に基づくカタログマッチング方法論を提供する; (c) PAEが有効で柔軟性があり、同等以上の(92.5% F1-Score)フレームワークであることを示す。
論文参考訳（メタデータ） (2024-05-27T17:50:25Z)
AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media [57.70351255180495]
AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。 FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
論文参考訳（メタデータ） (2024-01-16T20:57:36Z)
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。分析の核となるのは、各モデルの視覚的理解能力である。両モデルのユニークな強みとニッチを照らし出した。
論文参考訳（メタデータ） (2023-12-22T18:59:58Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文参考訳（メタデータ） (2023-08-22T11:00:09Z)
OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文参考訳（メタデータ） (2022-04-29T04:16:04Z)
PAM: Understanding Product Images in Cross Product Category Attribute Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文参考訳（メタデータ） (2021-06-08T18:30:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。