論文の概要: PUMGPT: A Large Vision-Language Model for Product Understanding
- arxiv url: http://arxiv.org/abs/2308.09568v1
- Date: Fri, 18 Aug 2023 14:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:57:37.654655
- Title: PUMGPT: A Large Vision-Language Model for Product Understanding
- Title(参考訳): pumgpt: 製品理解のための大きなビジョン言語モデル
- Authors: Shuhui Wu, Zengming Tang, Zongyi Guo, Weiwei Zhang, Baoliang Cui,
Haihong Tang, Weiming Lu
- Abstract要約: 商品理解タスクは,オンラインショッピング体験の向上に不可欠な役割を担っている。
マルチモーダルな大規模言語モデルの最近の発展は、視覚言語タスクを解く強力な能力を示している。
本稿では,製品理解タスクを単一モデル構造の下で統一することを目的とした大規模視覚言語モデルPUMGPTを提案する。
- 参考スコア(独自算出の注目度): 15.161455662927612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments of multi-modal large language models have demonstrated
its strong ability in solving vision-language tasks. In this paper, we focus on
the product understanding task, which plays an essential role in enhancing
online shopping experience. Product understanding task includes a variety of
sub-tasks, which require models to respond diverse queries based on multi-modal
product information. Traditional methods design distinct model architectures
for each sub-task. On the contrary, we present PUMGPT, a large vision-language
model aims at unifying all product understanding tasks under a singular model
structure. To bridge the gap between vision and text representations, we
propose Layer-wise Adapters (LA), an approach that provides enhanced alignment
with fewer visual tokens and enables parameter-efficient fine-tuning. Moreover,
the inherent parameter-efficient fine-tuning ability allows PUMGPT to be
readily adapted to new product understanding tasks and emerging products. We
design instruction templates to generate diverse product instruction datasets.
Simultaneously, we utilize open-domain datasets during training to improve the
performance of PUMGPT and its generalization ability. Through extensive
evaluations, PUMGPT demonstrates its superior performance across multiple
product understanding tasks, including product captioning, category
question-answering, attribute extraction, attribute question-answering, and
even free-form question-answering about products.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデルの開発により,視覚言語課題の解決能力が向上している。
本稿では,オンラインショッピング体験の向上に不可欠な製品理解タスクに焦点をあてる。
プロダクト理解タスクにはさまざまなサブタスクが含まれており、マルチモーダル製品情報に基づいた多様なクエリにモデルが応答する必要がある。
伝統的な手法は各サブタスクごとに異なるモデルアーキテクチャを設計する。
一方,PUMGPTは,製品理解タスクを単一のモデル構造の下で統一することを目的とした大規模視覚言語モデルである。
視覚とテキスト表現のギャップを埋めるため,より少ない視覚トークンとのアライメントを向上し,パラメータ効率の良い微調整を可能にするLayer-wise Adapters (LA)を提案する。
さらに、パラメーター効率の優れた微調整能力により、新しい製品理解タスクや新興製品に容易に適応できる。
多様な製品命令データセットを生成するための命令テンプレートを設計する。
同時に、トレーニング中にオープンドメインデータセットを使用してPUMGPTの性能と一般化能力を向上させる。
PUMGPTは製品キャプション,カテゴリ質問回答,属性抽出,属性質問回答,さらには製品に関する自由形式の質問回答など,複数の製品理解タスクにおいて優れたパフォーマンスを示す。
関連論文リスト
- Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - Knowledge Graph Completion Models are Few-shot Learners: An Empirical
Study of Relation Labeling in E-commerce with LLMs [16.700089674927348]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて驚くべき結果を示している。
本稿では,自然言語における強力な学習能力とラベル付きデータを用いた製品タイプ間の関係予測の有効性について検討する。
以上の結果から,LLMは電子商取引KGのリレーショナルラベリングにおいて既存のKG完成モデルよりも大幅に優れており,人間のラベリングに取って代わるほど高い性能を示した。
論文 参考訳(メタデータ) (2023-05-17T00:08:36Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。