論文の概要: Multimodal Prompt Learning for Product Title Generation with Extremely
Limited Labels
- arxiv url: http://arxiv.org/abs/2307.01969v1
- Date: Wed, 5 Jul 2023 00:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:33:52.797295
- Title: Multimodal Prompt Learning for Product Title Generation with Extremely
Limited Labels
- Title(参考訳): 限定ラベルを用いた製品タイトル生成のためのマルチモーダルプロンプト学習
- Authors: Bang Yang, Fenglin Liu, Zheng Li, Qingyu Yin, Chenyu You, Bing Yin,
and Yuexian Zou
- Abstract要約: 本稿では,ラベルが限定された新商品のタイトルを生成するためのプロンプトベースアプローチ,すなわちマルチモーダル・プロンプト学習フレームワークを提案する。
我々は、新しい製品の対応する特性と書体を維持するために、異なるモダリティから多モーダルなプロンプトのセットを構築する。
トレーニング用ラベル付きデータの完全化により,本手法は最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 66.54691023795097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating an informative and attractive title for the product is a crucial
task for e-commerce. Most existing works follow the standard multimodal natural
language generation approaches, e.g., image captioning, and employ the large
scale of human-labelled datasets to train desirable models. However, for novel
products, especially in a different domain, there are few existing labelled
data. In this paper, we propose a prompt-based approach, i.e., the Multimodal
Prompt Learning framework, to accurately and efficiently generate titles for
novel products with limited labels. We observe that the core challenges of
novel product title generation are the understanding of novel product
characteristics and the generation of titles in a novel writing style. To this
end, we build a set of multimodal prompts from different modalities to preserve
the corresponding characteristics and writing styles of novel products. As a
result, with extremely limited labels for training, the proposed method can
retrieve the multimodal prompts to generate desirable titles for novel
products. The experiments and analyses are conducted on five novel product
categories under both the in-domain and out-of-domain experimental settings.
The results show that, with only 1% of downstream labelled data for training,
our proposed approach achieves the best few-shot results and even achieves
competitive results with fully-supervised methods trained on 100% of training
data; With the full labelled data for training, our method achieves
state-of-the-art results.
- Abstract(参考訳): 製品に対する情報的かつ魅力的なタイトルを生成することは、eコマースにとって重要なタスクだ。
既存の作品の多くは、画像キャプションなど、標準的なマルチモーダル自然言語生成アプローチに従っており、望ましいモデルをトレーニングするために、大量の人間ラベルデータセットを使用している。
しかし、新しい製品、特に異なるドメインでは、既存のラベル付きデータはほとんど存在しない。
本稿では,ラベルが限定された新商品のタイトルを正確かつ効率的に生成するためのプロンプトベースアプローチ,すなわちマルチモーダル・プロンプト学習フレームワークを提案する。
新製品のタイトル生成における課題は,新規な製品特性の理解と,新規なライティングスタイルにおけるタイトルの生成である。
この目的のために, 異なるモダリティから多モーダルプロンプトの集合を構築し, 新規製品の対応する特性と書体スタイルを保存した。
その結果,訓練用ラベルが極めて限られている場合,提案手法は多変量プロンプトを抽出し,新規製品に望ましいタイトルを生成することができる。
実験と分析は, ドメイン内およびドメイン外における5つの新しい製品カテゴリについて行った。
提案手法は, トレーニング用ラベル付きデータの1%に過ぎず, 最良数ショットの結果を達成し, 100%のトレーニングデータに基づいてトレーニングした完全教師付き手法による競争結果も達成している。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文 参考訳(メタデータ) (2024-01-15T00:06:24Z) - Multi-modal Extreme Classification [14.574342454143023]
本稿では,数百万のラベルを持つ極端分類タスク(XC)のためのMUFIN技術を開発した。
MUFINは、数百万のラベルでXC問題としてマルチモーダル分類を再構成することでギャップを埋める。
MUFINは、主要なテキストベース、画像ベース、マルチモーダル技術よりも少なくとも3%高い精度を提供する。
論文 参考訳(メタデータ) (2023-09-10T08:23:52Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。