Fugu-MT 論文翻訳(概要): PUMGPT: A Large Vision-Language Model for Product Understanding

論文の概要: PUMGPT: A Large Vision-Language Model for Product Understanding

arxiv url: http://arxiv.org/abs/2308.09568v2
Date: Sun, 16 Jun 2024 10:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 12:40:28.036858
Title: PUMGPT: A Large Vision-Language Model for Product Understanding
Title（参考訳）: PUMGPT:製品理解のための大規模ビジョンランゲージモデル
Authors: Wei Xue, Zongyi Guo, Baoliang Cui, Zheng Xing, Xiaoyi Zeng, Xiufei Wang, Shuhui Wu, Weiming Lu,
Abstract要約: PumGPTは、マルチモーダル製品理解タスク用に設計された最初の電子商取引専用LVLMである。実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。
参考スコア（独自算出の注目度）: 18.70740237744492
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: E-commerce platforms benefit from accurate product understanding to enhance user experience and operational efficiency. Traditional methods often focus on isolated tasks such as attribute extraction or categorization, posing adaptability issues to evolving tasks and leading to usability challenges with noisy data from the internet. Current Large Vision Language Models (LVLMs) lack domain-specific fine-tuning, thus falling short in precision and instruction following. To address these issues, we introduce PumGPT, the first e-commerce specialized LVLM designed for multi-modal product understanding tasks. We collected and curated a dataset of over one million products from AliExpress, filtering out non-inferable attributes using a universal hallucination detection framework, resulting in 663k high-quality data samples. PumGPT focuses on five essential tasks aimed at enhancing workflows for e-commerce platforms and retailers. We also introduce PumBench, a benchmark to evaluate product understanding across LVLMs. Our experiments show that PumGPT outperforms five other open-source LVLMs and GPT-4V in product understanding tasks. We also conduct extensive analytical experiments to delve deeply into the superiority of PumGPT, demonstrating the necessity for a specialized model in the e-commerce domain.
Abstract（参考訳）: Eコマースプラットフォームは、ユーザエクスペリエンスと運用効率を向上させるために、正確な製品理解の恩恵を受ける。伝統的な手法は、しばしば属性抽出や分類のような孤立したタスクに焦点を合わせ、タスクの進化に適応性の問題を引き起こし、インターネットからノイズの多いデータを持つユーザビリティの問題を引き起こす。現在のLVLM(Large Vision Language Models)は、ドメイン固有の微調整を欠いているため、正確さと指示が不足している。これらの課題に対処するため,マルチモーダル製品理解タスク用に設計された電子商取引専用LVLMであるPumGPTを紹介した。我々はAliExpressから100万以上の商品のデータセットを収集し、普遍的な幻覚検出フレームワークを用いて推論不能な属性をフィルタリングした。 PumGPTは、eコマースプラットフォームと小売業者のワークフローを強化するための5つの重要なタスクに焦点を当てている。また,LVLM間の製品理解を評価するベンチマークであるPumBenchを紹介する。実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。我々はまた、PumGPTの優位性を深く掘り下げる広範な分析実験を行い、eコマース分野における専門モデルの必要性を実証した。

関連論文リスト

ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。 LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文参考訳（メタデータ） (2025-03-20T09:49:15Z)
LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文参考訳（メタデータ） (2025-03-12T10:10:30Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文参考訳（メタデータ） (2023-12-25T11:31:47Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。 EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文参考訳（メタデータ） (2023-08-14T06:49:53Z)
Knowledge Graph Completion Models are Few-shot Learners: An Empirical Study of Relation Labeling in E-commerce with LLMs [16.700089674927348]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて驚くべき結果を示している。本稿では,自然言語における強力な学習能力とラベル付きデータを用いた製品タイプ間の関係予測の有効性について検討する。以上の結果から,LLMは電子商取引KGのリレーショナルラベリングにおいて既存のKG完成モデルよりも大幅に優れており,人間のラベリングに取って代わるほど高い性能を示した。
論文参考訳（メタデータ） (2023-05-17T00:08:36Z)
ItemSage: Learning Product Embeddings for Shopping Recommendations at Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文参考訳（メタデータ） (2022-05-24T02:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。