論文の概要: A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation
- arxiv url: http://arxiv.org/abs/2402.13587v2
- Date: Thu, 7 Mar 2024 11:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:58:52.600872
- Title: A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation
- Title(参考訳): Eコマース製品記述生成のためのマルチモーダルインコンテキストチューニング手法
- Authors: Yunxin Li, Baotian Hu, Wenhan Luo, Lin Ma, Yuxin Ding, Min Zhang
- Abstract要約: マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 47.70824723223262
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a new setting for generating product descriptions
from images, augmented by marketing keywords. It leverages the combined power
of visual and textual information to create descriptions that are more tailored
to the unique features of products. For this setting, previous methods utilize
visual and textual encoders to encode the image and keywords and employ a
language model-based decoder to generate the product description. However, the
generated description is often inaccurate and generic since same-category
products have similar copy-writings, and optimizing the overall framework on
large-scale samples makes models concentrate on common words yet ignore the
product features. To alleviate the issue, we present a simple and effective
Multimodal In-Context Tuning approach, named ModICT, which introduces a similar
product sample as the reference and utilizes the in-context learning capability
of language models to produce the description. During training, we keep the
visual encoder and language model frozen, focusing on optimizing the modules
responsible for creating multimodal in-context references and dynamic prompts.
This approach preserves the language generation prowess of large language
models (LLMs), facilitating a substantial increase in description diversity. To
assess the effectiveness of ModICT across various language model scales and
types, we collect data from three distinct product categories within the
E-commerce domain. Extensive experiments demonstrate that ModICT significantly
improves the accuracy (by up to 3.3% on Rouge-L) and diversity (by up to 9.4%
on D-5) of generated results compared to conventional methods. Our findings
underscore the potential of ModICT as a valuable tool for enhancing automatic
generation of product descriptions in a wide range of applications. Code is at:
https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning
- Abstract(参考訳): 本稿では,マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
視覚情報とテキスト情報の組み合わせを活用して、製品のユニークな特徴に合わせた説明を生成する。
この設定のために、以前の手法では視覚的およびテキスト的エンコーダを使用して画像とキーワードをエンコードし、言語モデルに基づくデコーダを使用して製品記述を生成する。
しかし、生成した記述はしばしば不正確であり、同じカテゴリの製品も同様のコピーライティングを持ち、大規模なサンプルに対する全体的なフレームワークを最適化することで、モデルは一般的な単語に集中するが、製品の特徴を無視する。
この問題を軽減するために, ModICT というシンプルなマルチモーダル・インコンテキスト・チューニング手法を提案し, 類似した製品サンプルを参照として導入し, 言語モデルのインコンテキスト学習機能を用いて記述を生成する。
トレーニング中、私たちはビジュアルエンコーダと言語モデルを凍結し続け、マルチモーダルなインコンテキスト参照と動的プロンプトを作成するモジュールの最適化に重点を置いています。
このアプローチは、大きな言語モデル(LLM)の言語生成能力を保ち、記述の多様性を大幅に向上させる。
様々な言語モデルスケールとタイプにおけるModICTの有効性を評価するため,Eコマース領域内の3つの異なる製品カテゴリからデータを収集した。
広範な実験により、modictは生成した結果の精度(ルージュlでは最大3.3%)と多様性(d-5では最大9.4%)を従来の方法と比較して大幅に改善することが示されている。
当社の調査結果は,幅広いアプリケーションで製品記述の自動生成を促進する貴重なツールとしてのmodictの可能性を強調している。
https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning
関連論文リスト
- Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified
Learning Scheme and Dynamic Range Minimization [14.223683006262151]
本稿では,統合学習スキームとダイナミックレンジ最小化によるマルチモーダルeコマース属性値抽出手法を提案する。
一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2022-07-15T03:58:04Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。