Fugu-MT 論文翻訳(概要): PUMGPT: A Large Vision-Language Model for Product Understanding

論文の概要: PUMGPT: A Large Vision-Language Model for Product Understanding

arxiv url: http://arxiv.org/abs/2308.09568v1
Date: Fri, 18 Aug 2023 14:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 12:57:37.654655
Title: PUMGPT: A Large Vision-Language Model for Product Understanding
Title（参考訳）: pumgpt: 製品理解のための大きなビジョン言語モデル
Authors: Shuhui Wu, Zengming Tang, Zongyi Guo, Weiwei Zhang, Baoliang Cui, Haihong Tang, Weiming Lu
Abstract要約: 商品理解タスクは,オンラインショッピング体験の向上に不可欠な役割を担っている。マルチモーダルな大規模言語モデルの最近の発展は、視覚言語タスクを解く強力な能力を示している。本稿では,製品理解タスクを単一モデル構造の下で統一することを目的とした大規模視覚言語モデルPUMGPTを提案する。
参考スコア（独自算出の注目度）: 15.161455662927612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments of multi-modal large language models have demonstrated its strong ability in solving vision-language tasks. In this paper, we focus on the product understanding task, which plays an essential role in enhancing online shopping experience. Product understanding task includes a variety of sub-tasks, which require models to respond diverse queries based on multi-modal product information. Traditional methods design distinct model architectures for each sub-task. On the contrary, we present PUMGPT, a large vision-language model aims at unifying all product understanding tasks under a singular model structure. To bridge the gap between vision and text representations, we propose Layer-wise Adapters (LA), an approach that provides enhanced alignment with fewer visual tokens and enables parameter-efficient fine-tuning. Moreover, the inherent parameter-efficient fine-tuning ability allows PUMGPT to be readily adapted to new product understanding tasks and emerging products. We design instruction templates to generate diverse product instruction datasets. Simultaneously, we utilize open-domain datasets during training to improve the performance of PUMGPT and its generalization ability. Through extensive evaluations, PUMGPT demonstrates its superior performance across multiple product understanding tasks, including product captioning, category question-answering, attribute extraction, attribute question-answering, and even free-form question-answering about products.
Abstract（参考訳）: 近年,マルチモーダル大規模言語モデルの開発により,視覚言語課題の解決能力が向上している。本稿では,オンラインショッピング体験の向上に不可欠な製品理解タスクに焦点をあてる。プロダクト理解タスクにはさまざまなサブタスクが含まれており、マルチモーダル製品情報に基づいた多様なクエリにモデルが応答する必要がある。伝統的な手法は各サブタスクごとに異なるモデルアーキテクチャを設計する。一方,PUMGPTは,製品理解タスクを単一のモデル構造の下で統一することを目的とした大規模視覚言語モデルである。視覚とテキスト表現のギャップを埋めるため,より少ない視覚トークンとのアライメントを向上し,パラメータ効率の良い微調整を可能にするLayer-wise Adapters (LA)を提案する。さらに、パラメーター効率の優れた微調整能力により、新しい製品理解タスクや新興製品に容易に適応できる。多様な製品命令データセットを生成するための命令テンプレートを設計する。同時に、トレーニング中にオープンドメインデータセットを使用してPUMGPTの性能と一般化能力を向上させる。 PUMGPTは製品キャプション,カテゴリ質問回答,属性抽出,属性質問回答,さらには製品に関する自由形式の質問回答など,複数の製品理解タスクにおいて優れたパフォーマンスを示す。

関連論文リスト

VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings [11.209519424876762]
マルチモーダル学習は今日,eコマースレコメンデーションプラットフォームにおいて重要な役割を担っている。 CLIPのような既存のビジョン言語モデルは、eコマースレコメンデーションシステムにおいて重要な課題に直面している。視覚的理解のきめ細かな理解のためにVisual Groundingを統合することにより,CLIPの埋め込みを強化するフレームワークであるVL-CLIPを提案する。
論文参考訳（メタデータ） (2025-07-22T23:45:43Z)
Research on E-Commerce Long-Tail Product Recommendation Mechanism Based on Large-Scale Language Models [7.792622257477251]
大規模言語モデル(LLM)を用いた製品記述とユーザ行動シーケンスを統合した,新しいロングテール製品レコメンデーション機構を提案する。我々の研究は、今後のeコマースレコメンデーションシステムにおいて、製品コンテンツとユーザ意図を解釈するLLMの可能性を強調します。
論文参考訳（メタデータ） (2025-05-31T19:17:48Z)
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。 LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文参考訳（メタデータ） (2025-03-20T09:49:15Z)
LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文参考訳（メタデータ） (2025-03-12T10:10:30Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文参考訳（メタデータ） (2023-12-25T11:31:47Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。 EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文参考訳（メタデータ） (2023-08-14T06:49:53Z)
Knowledge Graph Completion Models are Few-shot Learners: An Empirical Study of Relation Labeling in E-commerce with LLMs [16.700089674927348]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて驚くべき結果を示している。本稿では,自然言語における強力な学習能力とラベル付きデータを用いた製品タイプ間の関係予測の有効性について検討する。以上の結果から,LLMは電子商取引KGのリレーショナルラベリングにおいて既存のKG完成モデルよりも大幅に優れており,人間のラベリングに取って代わるほど高い性能を示した。
論文参考訳（メタデータ） (2023-05-17T00:08:36Z)
ItemSage: Learning Product Embeddings for Shopping Recommendations at Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文参考訳（メタデータ） (2022-05-24T02:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。