論文の概要: Visual Zero-Shot E-Commerce Product Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2502.15979v1
- Date: Fri, 21 Feb 2025 22:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:51.020525
- Title: Visual Zero-Shot E-Commerce Product Attribute Value Extraction
- Title(参考訳): ビジュアルゼロショットEコマース製品属性値抽出
- Authors: Jiaying Gong, Ming Cheng, Hongda Shen, Pierre-Yves Vandenbussche, Janet Jenq, Hoda Eldardiry,
- Abstract要約: クロスモーダルなゼロショット属性値生成フレームワーク(ViOC-AG)を提案する。
ゼロショット推論の間、製品アスペクトは凍結されたCLIPイメージエンコーダによって生成される。
ViOC-AGは、ゼロショット属性値抽出のための他の微調整された視覚言語モデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 7.21061202737107
- License:
- Abstract: Existing zero-shot product attribute value (aspect) extraction approaches in e-Commerce industry rely on uni-modal or multi-modal models, where the sellers are asked to provide detailed textual inputs (product descriptions) for the products. However, manually providing (typing) the product descriptions is time-consuming and frustrating for the sellers. Thus, we propose a cross-modal zero-shot attribute value generation framework (ViOC-AG) based on CLIP, which only requires product images as the inputs. ViOC-AG follows a text-only training process, where a task-customized text decoder is trained with the frozen CLIP text encoder to alleviate the modality gap and task disconnection. During the zero-shot inference, product aspects are generated by the frozen CLIP image encoder connected with the trained task-customized text decoder. OCR tokens and outputs from a frozen prompt-based LLM correct the decoded outputs for out-of-domain attribute values. Experiments show that ViOC-AG significantly outperforms other fine-tuned vision-language models for zero-shot attribute value extraction.
- Abstract(参考訳): 既存の電子商取引業界におけるゼロショット商品属性値(アスペクト)抽出アプローチは、販売者が製品に対して詳細なテキスト入力(製品記述)を提供するよう要求されるユニモーダルまたはマルチモーダルモデルに依存している。
しかし、手動で製品説明を提供する(型付けする)ことは、売り手にとって時間がかかり、フラストレーションがあります。
そこで本研究では,CLIPをベースとしたクロスモーダルゼロショット属性生成フレームワーク(ViOC-AG)を提案する。
ViOC-AGはテキストのみのトレーニングプロセスに従い、タスクにカスタマイズされたテキストデコーダが凍結されたCLIPテキストエンコーダでトレーニングされ、モダリティギャップとタスクの切断が軽減される。
ゼロショット推論では、トレーニングされたタスクカストマイズされたテキストデコーダに接続された冷凍CLIPイメージエンコーダによって製品アスペクトが生成される。
OCRトークンと凍結プロンプトベースのLCMからの出力は、ドメイン外の属性値のデコード出力を補正する。
実験により、ViOC-AGは、ゼロショット属性値抽出のための他の微調整された視覚言語モデルよりも大幅に優れていることが示された。
関連論文リスト
- Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation [19.83954061346437]
CLIPに基づくZSASタスクのための視覚的コンテキストプロンプトモデル(VCP-CLIP)を提案する。
具体的には、まず、グローバルな視覚情報をテキストプロンプトに埋め込むためのPre-VCPモジュールを設計する。
そこで我々は,画像のきめ細かい特徴を利用してテキスト埋め込みを調整する新しいポストVCPモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T02:54:41Z) - EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Multi-task Item-attribute Graph Pre-training for Strict Cold-start Item
Recommendation [71.5871100348448]
ColdGPTは、アイテム内容からきめ細かい属性を抽出することにより、アイテム属性相関をアイテム属性グラフにモデル化する。
ColdGPTは、さまざまな利用可能なデータソース、すなわちアイテムの内容、過去の購入シーケンス、既存のアイテムのレビューテキストから、知識をアイテム属性グラフに転送する。
大規模な実験により、ColdGPTは既存のSCSレコメンデーターを大きなマージンで一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-26T07:04:47Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。