Fugu-MT 論文翻訳(概要): A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation

論文の概要: A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation

arxiv url: http://arxiv.org/abs/2402.13587v2
Date: Thu, 7 Mar 2024 11:29:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 16:58:52.600872
Title: A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation
Title（参考訳）: Eコマース製品記述生成のためのマルチモーダルインコンテキストチューニング手法
Authors: Yunxin Li, Baotian Hu, Wenhan Luo, Lin Ma, Yuxin Ding, Min Zhang
Abstract要約: マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
参考スコア（独自算出の注目度）: 47.70824723223262
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we propose a new setting for generating product descriptions from images, augmented by marketing keywords. It leverages the combined power of visual and textual information to create descriptions that are more tailored to the unique features of products. For this setting, previous methods utilize visual and textual encoders to encode the image and keywords and employ a language model-based decoder to generate the product description. However, the generated description is often inaccurate and generic since same-category products have similar copy-writings, and optimizing the overall framework on large-scale samples makes models concentrate on common words yet ignore the product features. To alleviate the issue, we present a simple and effective Multimodal In-Context Tuning approach, named ModICT, which introduces a similar product sample as the reference and utilizes the in-context learning capability of language models to produce the description. During training, we keep the visual encoder and language model frozen, focusing on optimizing the modules responsible for creating multimodal in-context references and dynamic prompts. This approach preserves the language generation prowess of large language models (LLMs), facilitating a substantial increase in description diversity. To assess the effectiveness of ModICT across various language model scales and types, we collect data from three distinct product categories within the E-commerce domain. Extensive experiments demonstrate that ModICT significantly improves the accuracy (by up to 3.3% on Rouge-L) and diversity (by up to 9.4% on D-5) of generated results compared to conventional methods. Our findings underscore the potential of ModICT as a valuable tool for enhancing automatic generation of product descriptions in a wide range of applications. Code is at: https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning
Abstract（参考訳）: 本稿では,マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。視覚情報とテキスト情報の組み合わせを活用して、製品のユニークな特徴に合わせた説明を生成する。この設定のために、以前の手法では視覚的およびテキスト的エンコーダを使用して画像とキーワードをエンコードし、言語モデルに基づくデコーダを使用して製品記述を生成する。しかし、生成した記述はしばしば不正確であり、同じカテゴリの製品も同様のコピーライティングを持ち、大規模なサンプルに対する全体的なフレームワークを最適化することで、モデルは一般的な単語に集中するが、製品の特徴を無視する。この問題を軽減するために, ModICT というシンプルなマルチモーダル・インコンテキスト・チューニング手法を提案し, 類似した製品サンプルを参照として導入し, 言語モデルのインコンテキスト学習機能を用いて記述を生成する。トレーニング中、私たちはビジュアルエンコーダと言語モデルを凍結し続け、マルチモーダルなインコンテキスト参照と動的プロンプトを作成するモジュールの最適化に重点を置いています。このアプローチは、大きな言語モデル(LLM)の言語生成能力を保ち、記述の多様性を大幅に向上させる。様々な言語モデルスケールとタイプにおけるModICTの有効性を評価するため,Eコマース領域内の3つの異なる製品カテゴリからデータを収集した。広範な実験により、modictは生成した結果の精度(ルージュlでは最大3.3%)と多様性(d-5では最大9.4%)を従来の方法と比較して大幅に改善することが示されている。当社の調査結果は,幅広いアプリケーションで製品記述の自動生成を促進する貴重なツールとしてのmodictの可能性を強調している。 https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning

関連論文リスト

An analysis of vision-language models for fabric retrieval [4.311804611758908]
情報検索やレコメンデーションシステムといったアプリケーションには,クロスモーダル検索が不可欠である。本稿では,ファブリックサンプルのゼロショットテキスト・ツー・イメージ検索におけるビジョン言語モデルの利用について検討する。
論文参考訳（メタデータ） (2025-07-07T08:00:18Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-02-05T09:06:02Z)
Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。大規模な実験により,提案手法の有効性が示唆された。
論文参考訳（メタデータ） (2024-10-16T04:44:15Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文参考訳（メタデータ） (2023-08-22T11:00:09Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified Learning Scheme and Dynamic Range Minimization [14.223683006262151]
本稿では,統合学習スキームとダイナミックレンジ最小化によるマルチモーダルeコマース属性値抽出手法を提案する。一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。
論文参考訳（メタデータ） (2022-07-15T03:58:04Z)
Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。 Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文参考訳（メタデータ） (2020-10-28T21:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。