論文の概要: AntM$^{2}$C: A Large Scale Dataset For Multi-Scenario Multi-Modal CTR
Prediction
- arxiv url: http://arxiv.org/abs/2308.16437v1
- Date: Thu, 31 Aug 2023 03:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 17:50:12.571586
- Title: AntM$^{2}$C: A Large Scale Dataset For Multi-Scenario Multi-Modal CTR
Prediction
- Title(参考訳): antm$^{2}$c:マルチscenarioマルチモーダルctr予測のための大規模データセット
- Authors: Zhaoxin Huan, Ke Ding, Ang Li, Xiaolu Zhang, Xu Min, Yong He, Liang
Zhang, Jun Zhou, Linjian Mo, Jinjie Gu, Zhongyi Liu, Wenliang Zhong, Guannan
Zhang
- Abstract要約: 既存のデータセットには、単一のシナリオから同じタイプのアイテムのデータしか含まれない。
既存のデータセットの規模は約1億であり、実際のCTR予測に比べて比較的小さい。
AntM$2$Cは、200の機能を備えた10億のCTRデータを提供する。
- 参考スコア(独自算出の注目度): 39.55321243159993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Click-through rate (CTR) prediction is a crucial issue in recommendation
systems. There has been an emergence of various public CTR datasets. However,
existing datasets primarily suffer from the following limitations. Firstly,
users generally click different types of items from multiple scenarios, and
modeling from multiple scenarios can provide a more comprehensive understanding
of users. Existing datasets only include data for the same type of items from a
single scenario. Secondly, multi-modal features are essential in multi-scenario
prediction as they address the issue of inconsistent ID encoding between
different scenarios. The existing datasets are based on ID features and lack
multi-modal features. Third, a large-scale dataset can provide a more reliable
evaluation of models, fully reflecting the performance differences between
models. The scale of existing datasets is around 100 million, which is
relatively small compared to the real-world CTR prediction. To address these
limitations, we propose AntM$^{2}$C, a Multi-Scenario Multi-Modal CTR dataset
based on industrial data from Alipay. Specifically, AntM$^{2}$C provides the
following advantages: 1) It covers CTR data of 5 different types of items,
providing insights into the preferences of users for different items, including
advertisements, vouchers, mini-programs, contents, and videos. 2) Apart from
ID-based features, AntM$^{2}$C also provides 2 multi-modal features, raw text
and image features, which can effectively establish connections between items
with different IDs. 3) AntM$^{2}$C provides 1 billion CTR data with 200
features, including 200 million users and 6 million items. It is currently the
largest-scale CTR dataset available. Based on AntM$^{2}$C, we construct several
typical CTR tasks and provide comparisons with baseline methods. The dataset
homepage is available at https://www.atecup.cn/home.
- Abstract(参考訳): クリックスルー率(CTR)予測はレコメンデーションシステムにおいて重要な問題である。
様々な公開CTRデータセットが出現している。
しかし、既存のデータセットは、主に以下の制限に苦しむ。
まず、ユーザーは複数のシナリオから異なるタイプのアイテムをクリックし、複数のシナリオからのモデリングはユーザーをより包括的に理解する。
既存のデータセットには、単一のシナリオから同じタイプのアイテムのデータしか含まれない。
第二に、異なるシナリオ間での一貫性のないIDエンコーディングの問題に対処するため、マルチモード機能はマルチシナリオ予測において不可欠である。
既存のデータセットはID機能に基づいており、マルチモーダル機能がない。
第三に、大規模データセットはモデル間のパフォーマンスの差異を完全に反映し、モデルのより信頼性の高い評価を提供することができる。
既存のデータセットの規模は約1億であり、実際のCTR予測に比べて比較的小さい。
これらの制約に対処するため、Alipayの産業データに基づくマルチシナリオマルチモーダルCTRデータセットAntM$^{2}$Cを提案する。
具体的には、antm$^{2}$cは以下の利点を提供する。
1)5種類の項目のCTRデータをカバーし,広告,ボイス,ミニプログラム,コンテンツ,ビデオなど,異なる項目に対するユーザの嗜好に関する洞察を提供する。
2) idベースの機能とは別に、antm$^{2}$cは2つのマルチモーダル機能、生のテキストと画像機能を提供し、異なるidを持つアイテム間の接続を効果的に確立する。
3) antm$^{2}$cは、2億人のユーザと600万のアイテムを含む2つの機能を備えた10億のctrデータを提供する。
現在は最大規模のCTRデータセットである。
AntM$^{2}$Cに基づいて、いくつかの典型的なCTRタスクを構築し、ベースライン手法との比較を行う。
datasetのホームページはhttps://www.atecup.cn/homeで入手できる。
関連論文リスト
- CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features [18.5370516345512]
CLIPのようなマルチモーダルエンコーダは、ゼロショット画像分類やクロスモーダル検索といったタスクに優れている。
そこで本研究では,2つのユニモーダルエンコーダを用いて,制限データを用いたマルチモーダルエンコーダを複製する正準類似性解析(CSA)を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:54:37Z) - $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking [11.334577756093923]
我々はデータセット構築パイプラインを提案し、MELのための大規模データセットであるM3EL$を発行する。
M3EL$には79,625のインスタンスが含まれ、9つの多様なマルチモーダルタスクと5つのトピックが含まれている。
我々のデータセットはこれらの問題に効果的に対処し、$textitCLIP_textitND$モデルに$M3EL$を微調整すると精度が大幅に向上する。
論文 参考訳(メタデータ) (2024-10-08T10:52:23Z) - MultiClimate: Multimodal Stance Detection on Climate Change Videos [21.89915927245664]
本稿では,手動による姿勢検出データセットであるMultiClimateについて述べる。
我々は、最先端のビジョンと言語モデル、およびマルチクライメート姿勢検出のためのマルチモーダルモデルをデプロイする。
100Mサイズの核融合モデルもCLIPとBLIPを上回り、さらに大きな9BサイズのマルチモーダルIDEFICSとテキストのみのLlama3とGemma2を上回りました。
論文 参考訳(メタデータ) (2024-09-26T23:48:08Z) - Multimodal Banking Dataset: Understanding Client Needs through Event
Sequences [41.470088044942756]
本稿では,150万人以上の企業顧客を擁する,産業規模で利用可能なマルチモーダルバンキングデータセットMBDについて紹介する。
すべてのエントリは、実際のプロプライエタリな銀行データから適切に匿名化されます。
我々は,タスクごとの単一モーダル手法よりも,マルチモーダルベースラインの方が優れていることを示す数値的な結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T07:07:08Z) - MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens [113.9621845919304]
MINT-1Tは最も広く多様なオープンソースMultimodal INTerleavedデータセットです。
MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。
実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-06-17T07:21:36Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Rethinking Query, Key, and Value Embedding in Vision Transformer under
Tiny Model Constraints [3.7660066212240753]
ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。
セマンティック$Q、K$、および$V$埋め込みの十分な考慮は、性能低下につながるかもしれない。
我々は、$Q$、$K$、$V$埋め込みの3種類の構造を提案する。
論文 参考訳(メタデータ) (2021-11-19T02:54:57Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。