論文の概要: M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks
- arxiv url: http://arxiv.org/abs/2109.04275v1
- Date: Thu, 9 Sep 2021 13:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 21:36:40.528434
- Title: M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks
- Title(参考訳): M5Product:E-commercial Product Downstream Tasksのためのマルチモーダル事前トレーニングベンチマーク
- Authors: Xiao Dong, Xunlin Zhan, Yangxin Wu, Yunchao Wei, Xiaoyong Wei, Minlong
Lu, Xiaodan Liang
- Abstract要約: 我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
- 参考スコア(独自算出の注目度): 94.80043324367858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to advance the research of multi-modal pre-training on
E-commerce and subsequently contribute a large-scale dataset, named M5Product,
which consists of over 6 million multimodal pairs, covering more than 6,000
categories and 5,000 attributes. Generally, existing multi-modal datasets are
either limited in scale or modality diversity. Differently, our M5Product is
featured from the following aspects. First, the M5Product dataset is 500 times
larger than the public multimodal dataset with the same number of modalities
and nearly twice larger compared with the largest available text-image
cross-modal dataset. Second, the dataset contains rich information of multiple
modalities including image, text, table, video and audio, in which each
modality can capture different views of semantic information (e.g. category,
attributes, affordance, brand, preference) and complements the other. Third, to
better accommodate with real-world problems, a few portion of M5Product
contains incomplete modality pairs and noises while having the long-tailed
distribution, which aligns well with real-world scenarios. Finally, we provide
a baseline model M5-MMT that makes the first attempt to integrate the different
modality configuration into an unified model for feature fusion to address the
great challenge for semantic alignment. We also evaluate various multi-model
pre-training state-of-the-arts for benchmarking their capabilities in learning
from unlabeled data under the different number of modalities on the M5Product
dataset. We conduct extensive experiments on four downstream tasks and provide
some interesting findings on these modalities. Our dataset and related code are
available at https://xiaodongsuper.github.io/M5Product_dataset.
- Abstract(参考訳): 本稿では,eコマースにおけるマルチモーダル事前学習の研究を進め,600万以上のマルチモーダルペアで構成され,6,000以上のカテゴリと5,000の属性を対象とする大規模データセットm5productを提案する。
一般に、既存のマルチモーダルデータセットはスケールまたはモダリティの多様性に制限されている。
異なるのは、M5Productは以下の点から特徴付けられることです。
まず、m5productデータセットは、公開マルチモーダルデータセットの500倍の大きさで、同じモダリティ数で、最大のテキストイメージクロスモーダルデータセットに比べてほぼ2倍大きい。
第2に、データセットには、画像、テキスト、テーブル、ビデオ、オーディオを含む複数のモーダルの豊富な情報が含まれており、各モーダルは意味情報の異なるビュー(例えば、)をキャプチャすることができる。
カテゴリー、属性、アフォーアンス、ブランド、選好)は、もう一方を補完する。
第三に、M5Productのいくつかの部分は、現実世界のシナリオとよく一致した長い尾の分布を持ちながら、不完全なモダリティペアとノイズを含んでいる。
最後に,基本モデルであるM5-MMTを提案し,各モード構成を機能融合のための統一モデルに統合し,セマンティックアライメントの課題に対処する。
また,m5productデータセットのさまざまなモダリティの下でラベルなしデータから学習する能力のベンチマークを行うために,多モデル事前学習状態を評価する。
4つのダウンストリームタスクに関する広範な実験を行い,これらのモダリティに関する興味深い知見を提供する。
私たちのデータセットと関連するコードは、https://xiaodongsuper.github.io/m5product_datasetで利用可能です。
関連論文リスト
- mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-12-11T05:08:19Z) - Multimodal Banking Dataset: Understanding Client Needs through Event
Sequences [41.470088044942756]
本稿では,150万人以上の企業顧客を擁する,産業規模で利用可能なマルチモーダルバンキングデータセットMBDについて紹介する。
すべてのエントリは、実際のプロプライエタリな銀行データから適切に匿名化されます。
我々は,タスクごとの単一モーダル手法よりも,マルチモーダルベースラインの方が優れていることを示す数値的な結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T07:07:08Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - CommerceMM: Large-Scale Commerce MultiModal Representation Learning with
Omni Retrieval [30.607369837039904]
CommerceMMは、コンテンツに関連するコマーストピックを多種多様な粒度の理解を提供するマルチモーダルモデルである。
我々は、Omni-Retrieval pre-trainingと呼ばれる9つの新しいクロスモーダル・クロスペア検索タスクを提案する。
本モデルでは,微調整後,7つの商取引関連下流タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-02-15T08:23:59Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。