論文の概要: M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks
- arxiv url: http://arxiv.org/abs/2109.04275v1
- Date: Thu, 9 Sep 2021 13:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 21:36:40.528434
- Title: M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks
- Title(参考訳): M5Product:E-commercial Product Downstream Tasksのためのマルチモーダル事前トレーニングベンチマーク
- Authors: Xiao Dong, Xunlin Zhan, Yangxin Wu, Yunchao Wei, Xiaoyong Wei, Minlong
Lu, Xiaodan Liang
- Abstract要約: 我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
- 参考スコア(独自算出の注目度): 94.80043324367858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to advance the research of multi-modal pre-training on
E-commerce and subsequently contribute a large-scale dataset, named M5Product,
which consists of over 6 million multimodal pairs, covering more than 6,000
categories and 5,000 attributes. Generally, existing multi-modal datasets are
either limited in scale or modality diversity. Differently, our M5Product is
featured from the following aspects. First, the M5Product dataset is 500 times
larger than the public multimodal dataset with the same number of modalities
and nearly twice larger compared with the largest available text-image
cross-modal dataset. Second, the dataset contains rich information of multiple
modalities including image, text, table, video and audio, in which each
modality can capture different views of semantic information (e.g. category,
attributes, affordance, brand, preference) and complements the other. Third, to
better accommodate with real-world problems, a few portion of M5Product
contains incomplete modality pairs and noises while having the long-tailed
distribution, which aligns well with real-world scenarios. Finally, we provide
a baseline model M5-MMT that makes the first attempt to integrate the different
modality configuration into an unified model for feature fusion to address the
great challenge for semantic alignment. We also evaluate various multi-model
pre-training state-of-the-arts for benchmarking their capabilities in learning
from unlabeled data under the different number of modalities on the M5Product
dataset. We conduct extensive experiments on four downstream tasks and provide
some interesting findings on these modalities. Our dataset and related code are
available at https://xiaodongsuper.github.io/M5Product_dataset.
- Abstract(参考訳): 本稿では,eコマースにおけるマルチモーダル事前学習の研究を進め,600万以上のマルチモーダルペアで構成され,6,000以上のカテゴリと5,000の属性を対象とする大規模データセットm5productを提案する。
一般に、既存のマルチモーダルデータセットはスケールまたはモダリティの多様性に制限されている。
異なるのは、M5Productは以下の点から特徴付けられることです。
まず、m5productデータセットは、公開マルチモーダルデータセットの500倍の大きさで、同じモダリティ数で、最大のテキストイメージクロスモーダルデータセットに比べてほぼ2倍大きい。
第2に、データセットには、画像、テキスト、テーブル、ビデオ、オーディオを含む複数のモーダルの豊富な情報が含まれており、各モーダルは意味情報の異なるビュー(例えば、)をキャプチャすることができる。
カテゴリー、属性、アフォーアンス、ブランド、選好)は、もう一方を補完する。
第三に、M5Productのいくつかの部分は、現実世界のシナリオとよく一致した長い尾の分布を持ちながら、不完全なモダリティペアとノイズを含んでいる。
最後に,基本モデルであるM5-MMTを提案し,各モード構成を機能融合のための統一モデルに統合し,セマンティックアライメントの課題に対処する。
また,m5productデータセットのさまざまなモダリティの下でラベルなしデータから学習する能力のベンチマークを行うために,多モデル事前学習状態を評価する。
4つのダウンストリームタスクに関する広範な実験を行い,これらのモダリティに関する興味深い知見を提供する。
私たちのデータセットと関連するコードは、https://xiaodongsuper.github.io/m5product_datasetで利用可能です。
関連論文リスト
- MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。
MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文 参考訳(メタデータ) (2022-12-15T21:41:06Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and
Toolkit [0.0]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - CommerceMM: Large-Scale Commerce MultiModal Representation Learning with
Omni Retrieval [30.607369837039904]
CommerceMMは、コンテンツに関連するコマーストピックを多種多様な粒度の理解を提供するマルチモーダルモデルである。
我々は、Omni-Retrieval pre-trainingと呼ばれる9つの新しいクロスモーダル・クロスペア検索タスクを提案する。
本モデルでは,微調整後,7つの商取引関連下流タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-02-15T08:23:59Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - M6: A Chinese Multimodal Pretrainer [66.51132343067458]
1.9TB以上の画像と292GBのテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築します。
我々はマルチモーダルなマルチモーダルなマルチタスク・メガトランスを参考に,M6と呼ばれるクロスモーダルな事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-01T07:46:27Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。