論文の概要: PUMGPT: A Large Vision-Language Model for Product Understanding
- arxiv url: http://arxiv.org/abs/2308.09568v1
- Date: Fri, 18 Aug 2023 14:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:57:37.654655
- Title: PUMGPT: A Large Vision-Language Model for Product Understanding
- Title(参考訳): pumgpt: 製品理解のための大きなビジョン言語モデル
- Authors: Shuhui Wu, Zengming Tang, Zongyi Guo, Weiwei Zhang, Baoliang Cui,
Haihong Tang, Weiming Lu
- Abstract要約: 商品理解タスクは,オンラインショッピング体験の向上に不可欠な役割を担っている。
マルチモーダルな大規模言語モデルの最近の発展は、視覚言語タスクを解く強力な能力を示している。
本稿では,製品理解タスクを単一モデル構造の下で統一することを目的とした大規模視覚言語モデルPUMGPTを提案する。
- 参考スコア(独自算出の注目度): 15.161455662927612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments of multi-modal large language models have demonstrated
its strong ability in solving vision-language tasks. In this paper, we focus on
the product understanding task, which plays an essential role in enhancing
online shopping experience. Product understanding task includes a variety of
sub-tasks, which require models to respond diverse queries based on multi-modal
product information. Traditional methods design distinct model architectures
for each sub-task. On the contrary, we present PUMGPT, a large vision-language
model aims at unifying all product understanding tasks under a singular model
structure. To bridge the gap between vision and text representations, we
propose Layer-wise Adapters (LA), an approach that provides enhanced alignment
with fewer visual tokens and enables parameter-efficient fine-tuning. Moreover,
the inherent parameter-efficient fine-tuning ability allows PUMGPT to be
readily adapted to new product understanding tasks and emerging products. We
design instruction templates to generate diverse product instruction datasets.
Simultaneously, we utilize open-domain datasets during training to improve the
performance of PUMGPT and its generalization ability. Through extensive
evaluations, PUMGPT demonstrates its superior performance across multiple
product understanding tasks, including product captioning, category
question-answering, attribute extraction, attribute question-answering, and
even free-form question-answering about products.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデルの開発により,視覚言語課題の解決能力が向上している。
本稿では,オンラインショッピング体験の向上に不可欠な製品理解タスクに焦点をあてる。
プロダクト理解タスクにはさまざまなサブタスクが含まれており、マルチモーダル製品情報に基づいた多様なクエリにモデルが応答する必要がある。
伝統的な手法は各サブタスクごとに異なるモデルアーキテクチャを設計する。
一方,PUMGPTは,製品理解タスクを単一のモデル構造の下で統一することを目的とした大規模視覚言語モデルである。
視覚とテキスト表現のギャップを埋めるため,より少ない視覚トークンとのアライメントを向上し,パラメータ効率の良い微調整を可能にするLayer-wise Adapters (LA)を提案する。
さらに、パラメーター効率の優れた微調整能力により、新しい製品理解タスクや新興製品に容易に適応できる。
多様な製品命令データセットを生成するための命令テンプレートを設計する。
同時に、トレーニング中にオープンドメインデータセットを使用してPUMGPTの性能と一般化能力を向上させる。
PUMGPTは製品キャプション,カテゴリ質問回答,属性抽出,属性質問回答,さらには製品に関する自由形式の質問回答など,複数の製品理解タスクにおいて優れたパフォーマンスを示す。
関連論文リスト
- Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - The (R)Evolution of Multimodal Large Language Models: A Survey [48.61135328255951]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。