論文の概要: PUMGPT: A Large Vision-Language Model for Product Understanding
- arxiv url: http://arxiv.org/abs/2308.09568v2
- Date: Sun, 16 Jun 2024 10:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:40:28.036858
- Title: PUMGPT: A Large Vision-Language Model for Product Understanding
- Title(参考訳): PUMGPT:製品理解のための大規模ビジョンランゲージモデル
- Authors: Wei Xue, Zongyi Guo, Baoliang Cui, Zheng Xing, Xiaoyi Zeng, Xiufei Wang, Shuhui Wu, Weiming Lu,
- Abstract要約: PumGPTは、マルチモーダル製品理解タスク用に設計された最初の電子商取引専用LVLMである。
実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。
- 参考スコア(独自算出の注目度): 18.70740237744492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce platforms benefit from accurate product understanding to enhance user experience and operational efficiency. Traditional methods often focus on isolated tasks such as attribute extraction or categorization, posing adaptability issues to evolving tasks and leading to usability challenges with noisy data from the internet. Current Large Vision Language Models (LVLMs) lack domain-specific fine-tuning, thus falling short in precision and instruction following. To address these issues, we introduce PumGPT, the first e-commerce specialized LVLM designed for multi-modal product understanding tasks. We collected and curated a dataset of over one million products from AliExpress, filtering out non-inferable attributes using a universal hallucination detection framework, resulting in 663k high-quality data samples. PumGPT focuses on five essential tasks aimed at enhancing workflows for e-commerce platforms and retailers. We also introduce PumBench, a benchmark to evaluate product understanding across LVLMs. Our experiments show that PumGPT outperforms five other open-source LVLMs and GPT-4V in product understanding tasks. We also conduct extensive analytical experiments to delve deeply into the superiority of PumGPT, demonstrating the necessity for a specialized model in the e-commerce domain.
- Abstract(参考訳): Eコマースプラットフォームは、ユーザエクスペリエンスと運用効率を向上させるために、正確な製品理解の恩恵を受ける。
伝統的な手法は、しばしば属性抽出や分類のような孤立したタスクに焦点を合わせ、タスクの進化に適応性の問題を引き起こし、インターネットからノイズの多いデータを持つユーザビリティの問題を引き起こす。
現在のLVLM(Large Vision Language Models)は、ドメイン固有の微調整を欠いているため、正確さと指示が不足している。
これらの課題に対処するため,マルチモーダル製品理解タスク用に設計された電子商取引専用LVLMであるPumGPTを紹介した。
我々はAliExpressから100万以上の商品のデータセットを収集し、普遍的な幻覚検出フレームワークを用いて推論不能な属性をフィルタリングした。
PumGPTは、eコマースプラットフォームと小売業者のワークフローを強化するための5つの重要なタスクに焦点を当てている。
また,LVLM間の製品理解を評価するベンチマークであるPumBenchを紹介する。
実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。
我々はまた、PumGPTの優位性を深く掘り下げる広範な分析実験を行い、eコマース分野における専門モデルの必要性を実証した。
関連論文リスト
- Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - Knowledge Graph Completion Models are Few-shot Learners: An Empirical
Study of Relation Labeling in E-commerce with LLMs [16.700089674927348]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて驚くべき結果を示している。
本稿では,自然言語における強力な学習能力とラベル付きデータを用いた製品タイプ間の関係予測の有効性について検討する。
以上の結果から,LLMは電子商取引KGのリレーショナルラベリングにおいて既存のKG完成モデルよりも大幅に優れており,人間のラベリングに取って代わるほど高い性能を示した。
論文 参考訳(メタデータ) (2023-05-17T00:08:36Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。