論文の概要: Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified
Learning Scheme and Dynamic Range Minimization
- arxiv url: http://arxiv.org/abs/2207.07278v2
- Date: Thu, 6 Apr 2023 15:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 18:13:11.570790
- Title: Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified
Learning Scheme and Dynamic Range Minimization
- Title(参考訳): 統一学習方式とダイナミックレンジ最小化によるマルチモーダルEコマース属性値抽出の促進
- Authors: Mengyin Liu, Chao Zhu, Hongyu Gao, Weibo Gu, Hongfa Wang, Wei Liu,
Xu-cheng Yin
- Abstract要約: 本稿では,統合学習スキームとダイナミックレンジ最小化によるマルチモーダルeコマース属性値抽出手法を提案する。
一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。
- 参考スコア(独自算出の注目度): 14.223683006262151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prosperity of e-commerce industry, various modalities, e.g., vision
and language, are utilized to describe product items. It is an enormous
challenge to understand such diversified data, especially via extracting the
attribute-value pairs in text sequences with the aid of helpful image regions.
Although a series of previous works have been dedicated to this task, there
remain seldomly investigated obstacles that hinder further improvements: 1)
Parameters from up-stream single-modal pretraining are inadequately applied,
without proper jointly fine-tuning in a down-stream multi-modal task. 2) To
select descriptive parts of images, a simple late fusion is widely applied,
regardless of priori knowledge that language-related information should be
encoded into a common linguistic embedding space by stronger encoders. 3) Due
to diversity across products, their attribute sets tend to vary greatly, but
current approaches predict with an unnecessary maximal range and lead to more
potential false positives. To address these issues, we propose in this paper a
novel approach to boost multi-modal e-commerce attribute value extraction via
unified learning scheme and dynamic range minimization: 1) Firstly, a unified
scheme is designed to jointly train a multi-modal task with pretrained
single-modal parameters. 2) Secondly, a text-guided information range
minimization method is proposed to adaptively encode descriptive parts of each
modality into an identical space with a powerful pretrained linguistic model.
3) Moreover, a prototype-guided attribute range minimization method is proposed
to first determine the proper attribute set of the current product, and then
select prototypes to guide the prediction of the chosen attributes. Experiments
on the popular multi-modal e-commerce benchmarks show that our approach
achieves superior performance over the other state-of-the-art techniques.
- Abstract(参考訳): eコマース産業の繁栄に伴い、ビジョンや言語といった様々なモダリティが製品項目の記述に利用される。
このような多様化したデータを理解することは、特に有用な画像領域の助けを借りて、テキストシーケンス中の属性値対を抽出することで大きな課題である。
この作業に先立つ一連の研究が注がれているが、さらなる改善を妨げる障害についてほとんど調査されていない。
1) 上流シングルモーダルプレトレーニングのパラメータは, 下流マルチモーダルタスクにおいて, 適切な微調整を行うことなく, 不適切に適用される。
2) 画像の記述的部分を選択するには,言語関連情報をより強力なエンコーダによって共通言語埋め込み空間にエンコードすべきという事前知識にかかわらず,単純なレイトフュージョンが広く適用される。
3) 製品間での多様性のため, 属性セットは大きく異なる傾向にあるが, 現在のアプローチでは, 不要な最大範囲で予測し, より潜在的な偽陽性をもたらす。
これらの問題に対処するため,本稿では,統一学習スキームとダイナミックレンジ最小化によるマルチモーダル電子商取引属性値の抽出を促進する新しい手法を提案する。
1) まず,事前訓練された単一モーダルパラメータを用いたマルチモーダルタスクを協調的に訓練する統合的スキームを設計する。
2) テキスト誘導型情報範囲最小化法を提案し, 事前学習された言語モデルを用いて各モダリティの記述部を同一空間に適応的に符号化する。
3) プロトタイプ誘導型属性範囲最小化手法を提案し, 提案手法はまず現行製品の適切な属性セットを判定し, 選択した属性の予測を導出するプロトタイプを選択する。
一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。
関連論文リスト
- M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Adversarial Multimodal Representation Learning for Click-Through Rate
Prediction [16.10640369157054]
本稿では,Click-Through Rate (CTR)予測タスクのための新しいマルチモーダル適応表現ネットワーク(MARN)を提案する。
マルチモーダルアテンションネットワークは、まず、各項目の複数のモーダルティの重みを、そのモーダル比の特徴に応じて算出する。
マルチモーダル対向ネットワークは、二重識別器戦略を導入するモードイン表現を学習する。
論文 参考訳(メタデータ) (2020-03-07T15:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。