Fugu-MT 論文翻訳(概要): M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks

論文の概要: M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks

arxiv url: http://arxiv.org/abs/2109.04275v1
Date: Thu, 9 Sep 2021 13:50:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-10 21:36:40.528434
Title: M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks
Title（参考訳）: M5Product:E-commercial Product Downstream Tasksのためのマルチモーダル事前トレーニングベンチマーク
Authors: Xiao Dong, Xunlin Zhan, Yangxin Wu, Yunchao Wei, Xiaoyong Wei, Minlong Lu, Xiaodan Liang
Abstract要約: 我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
参考スコア（独自算出の注目度）: 94.80043324367858
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we aim to advance the research of multi-modal pre-training on E-commerce and subsequently contribute a large-scale dataset, named M5Product, which consists of over 6 million multimodal pairs, covering more than 6,000 categories and 5,000 attributes. Generally, existing multi-modal datasets are either limited in scale or modality diversity. Differently, our M5Product is featured from the following aspects. First, the M5Product dataset is 500 times larger than the public multimodal dataset with the same number of modalities and nearly twice larger compared with the largest available text-image cross-modal dataset. Second, the dataset contains rich information of multiple modalities including image, text, table, video and audio, in which each modality can capture different views of semantic information (e.g. category, attributes, affordance, brand, preference) and complements the other. Third, to better accommodate with real-world problems, a few portion of M5Product contains incomplete modality pairs and noises while having the long-tailed distribution, which aligns well with real-world scenarios. Finally, we provide a baseline model M5-MMT that makes the first attempt to integrate the different modality configuration into an unified model for feature fusion to address the great challenge for semantic alignment. We also evaluate various multi-model pre-training state-of-the-arts for benchmarking their capabilities in learning from unlabeled data under the different number of modalities on the M5Product dataset. We conduct extensive experiments on four downstream tasks and provide some interesting findings on these modalities. Our dataset and related code are available at https://xiaodongsuper.github.io/M5Product_dataset.
Abstract（参考訳）: 本稿では,eコマースにおけるマルチモーダル事前学習の研究を進め,600万以上のマルチモーダルペアで構成され,6,000以上のカテゴリと5,000の属性を対象とする大規模データセットm5productを提案する。一般に、既存のマルチモーダルデータセットはスケールまたはモダリティの多様性に制限されている。異なるのは、M5Productは以下の点から特徴付けられることです。まず、m5productデータセットは、公開マルチモーダルデータセットの500倍の大きさで、同じモダリティ数で、最大のテキストイメージクロスモーダルデータセットに比べてほぼ2倍大きい。第2に、データセットには、画像、テキスト、テーブル、ビデオ、オーディオを含む複数のモーダルの豊富な情報が含まれており、各モーダルは意味情報の異なるビュー(例えば、)をキャプチャすることができる。カテゴリー、属性、アフォーアンス、ブランド、選好)は、もう一方を補完する。第三に、M5Productのいくつかの部分は、現実世界のシナリオとよく一致した長い尾の分布を持ちながら、不完全なモダリティペアとノイズを含んでいる。最後に,基本モデルであるM5-MMTを提案し,各モード構成を機能融合のための統一モデルに統合し,セマンティックアライメントの課題に対処する。また,m5productデータセットのさまざまなモダリティの下でラベルなしデータから学習する能力のベンチマークを行うために,多モデル事前学習状態を評価する。 4つのダウンストリームタスクに関する広範な実験を行い,これらのモダリティに関する興味深い知見を提供する。私たちのデータセットと関連するコードは、https://xiaodongsuper.github.io/m5product_datasetで利用可能です。

関連論文リスト

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning [4.963955559863751]
MMAT-1Mは、CoT、リフレクション、動的ツールの使用をサポートするために設計された最初の100万規模のマルチモーダルエージェントチューニングデータセットである。我々のデータセットは、新しい4段階のデータエンジンによって構築されます。 MMAT-1M上でのオープンソースのマルチモーダルモデルを微調整することにより,大幅な性能向上を観測する。
論文参考訳（メタデータ） (2025-07-29T15:39:14Z)
ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model [38.4111384634895]
Omni Multi-modal Person Re-identification (OM-ReID) と呼ばれる新しい課題について検討する。 ORBenchは、5つのモダリティにまたがる1,000のユニークなIDからなる最初の高品質なマルチモーダルデータセットである。また,ReIDのための新しいマルチモーダル学習フレームワークであるReID5oを提案する。
論文参考訳（メタデータ） (2025-06-11T04:26:13Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。 5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文参考訳（メタデータ） (2024-12-11T05:08:19Z)
Multimodal Banking Dataset: Understanding Client Needs through Event Sequences [41.470088044942756]
本稿では,150万人以上の企業顧客を擁する,産業規模で利用可能なマルチモーダルバンキングデータセットMBDについて紹介する。すべてのエントリは、実際のプロプライエタリな銀行データから適切に匿名化されます。我々は,タスクごとの単一モーダル手法よりも,マルチモーダルベースラインの方が優れていることを示す数値的な結果を提供する。
論文参考訳（メタデータ） (2024-09-26T07:07:08Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。 MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文参考訳（メタデータ） (2022-12-15T21:41:06Z)
Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文参考訳（メタデータ） (2022-09-07T10:26:28Z)
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。 MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文参考訳（メタデータ） (2022-05-04T23:40:04Z)
CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni Retrieval [30.607369837039904]
CommerceMMは、コンテンツに関連するコマーストピックを多種多様な粒度の理解を提供するマルチモーダルモデルである。我々は、Omni-Retrieval pre-trainingと呼ばれる9つの新しいクロスモーダル・クロスペア検索タスクを提案する。本モデルでは,微調整後,7つの商取引関連下流タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-02-15T08:23:59Z)
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文参考訳（メタデータ） (2021-07-30T12:11:24Z)
M6: A Chinese Multimodal Pretrainer [66.51132343067458]
1.9TB以上の画像と292GBのテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築します。我々はマルチモーダルなマルチモーダルなマルチタスク・メガトランスを参考に,M6と呼ばれるクロスモーダルな事前学習手法を提案する。
論文参考訳（メタデータ） (2021-03-01T07:46:27Z)
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文参考訳（メタデータ） (2020-03-30T03:13:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。