論文の概要: Quadratic Interest Network for Multimodal Click-Through Rate Prediction
- arxiv url: http://arxiv.org/abs/2504.17699v2
- Date: Fri, 25 Apr 2025 05:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.457886
- Title: Quadratic Interest Network for Multimodal Click-Through Rate Prediction
- Title(参考訳): マルチモーダルクリックスルーレート予測のための二次的関心ネットワーク
- Authors: Honghao Li, Hanwei Li, Jing Zhang, Yi Zhang, Ziniu Yu, Lei Sang, Yiwen Zhang,
- Abstract要約: 産業レコメンデーションシステムにおいて,マルチモーダルクリックスルー率(CTR)予測は重要な手法である。
マルチモーダルCTR予測のためのQINと呼ばれるタスク2の新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 12.989347150912685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal click-through rate (CTR) prediction is a key technique in industrial recommender systems. It leverages heterogeneous modalities such as text, images, and behavioral logs to capture high-order feature interactions between users and items, thereby enhancing the system's understanding of user interests and its ability to predict click behavior. The primary challenge in this field lies in effectively utilizing the rich semantic information from multiple modalities while satisfying the low-latency requirements of online inference in real-world applications. To foster progress in this area, the Multimodal CTR Prediction Challenge Track of the WWW 2025 EReL@MIR Workshop formulates the problem into two tasks: (1) Task 1 of Multimodal Item Embedding: this task aims to explore multimodal information extraction and item representation learning methods that enhance recommendation tasks; and (2) Task 2 of Multimodal CTR Prediction: this task aims to explore what multimodal recommendation model can effectively leverage multimodal embedding features and achieve better performance. In this paper, we propose a novel model for Task 2, named Quadratic Interest Network (QIN) for Multimodal CTR Prediction. Specifically, QIN employs adaptive sparse target attention to extract multimodal user behavior features, and leverages Quadratic Neural Networks to capture high-order feature interactions. As a result, QIN achieved an AUC of 0.9798 on the leaderboard and ranked second in the competition. The model code, training logs, hyperparameter configurations, and checkpoints are available at https://github.com/salmon1802/QIN.
- Abstract(参考訳): 産業レコメンデーションシステムにおいて,マルチモーダルクリックスルー率(CTR)予測は重要な手法である。
テキスト、画像、行動ログなどの不均一なモダリティを活用して、ユーザとアイテム間の高次機能インタラクションをキャプチャし、ユーザの興味やクリック行動を予測する能力を高める。
この分野での最大の課題は、実世界のアプリケーションにおけるオンライン推論の低レイテンシ要件を満たしつつ、複数のモードからのリッチなセマンティック情報を有効に活用することである。
この領域の進展を促進するため、WWW 2025 EReL@MIRワークショップのマルチモーダルCTR予測課題トラックでは、(1)マルチモーダルアイテム埋め込みのタスク1:リコメンデーションタスクを強化するためのマルチモーダル情報抽出と項目表現学習方法の探索、(2)マルチモーダルCTR予測のタスク2:マルチモーダルレコメンデーションモデルがマルチモーダル埋め込み機能を効果的に活用し、より良いパフォーマンスを実現するための2つのタスクを定式化している。
本稿では,マルチモーダルCTR予測のためのQINと呼ばれるタスク2の新しいモデルを提案する。
具体的には、QINは適応的なスパース目標の注意を使ってマルチモーダルなユーザ行動の特徴を抽出し、クアドラティックニューラルネットワークを利用して高次特徴インタラクションをキャプチャする。
その結果、QINはトップボードで0.9798のAUCを獲得し、大会では2位となった。
モデルコード、トレーニングログ、ハイパーパラメータの設定、チェックポイントはhttps://github.com/salmon1802/QIN.orgで公開されている。
関連論文リスト
- On the Practice of Deep Hierarchical Ensemble Network for Ad Conversion Rate Prediction [14.649184507551436]
本稿では,DHENを単一のバックボーンモデルアーキテクチャとして用いたマルチタスク学習フレームワークを提案する。
我々は,CVR予測のために,オンサイトリアルタイムユーザ行動シーケンスとオフサイト変換イベントシーケンスの両方を構築した。
本手法は,事前学習したユーザパーソナライズ機能付き単一機能横断モジュールと比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T23:41:34Z) - M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。
M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文 参考訳(メタデータ) (2025-03-23T15:08:09Z) - One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。
このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。
複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。
複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文 参考訳(メタデータ) (2024-08-06T07:19:51Z) - SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation [16.370075234443245]
本稿では,SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という,一生涯にわたるマルチモーダルシーケンスモデルを提案する。
具体的には、Pretraining Search Unitと呼ばれるネットワークが、事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イテムペアの寿命のシーケンスを学習する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダルなコードブックベースの製品量子化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-15T13:33:30Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - An Analysis Of Entire Space Multi-Task Models For Post-Click Conversion
Prediction [3.2979460528864926]
大規模広告プラットフォーム上でのモバイルアプリ広告におけるポストクリック変換イベント(インストール)の確率を近似することを検討する。
CTRタスクからCVRタスクへ、いくつかの異なるアプローチが、同様のポジティブなレベルの移行をもたらすことを示す。
我々の発見は、マルチタスク学習が現実世界の大規模アプリケーションで関連するイベントをモデル化する上で、合理的なアプローチであることを示す証拠が増えていることを示唆している。
論文 参考訳(メタデータ) (2021-08-18T13:39:50Z) - Joint predictions of multi-modal ride-hailing demands: a deep multi-task
multigraph learning-based approach [64.18639899347822]
本稿では、複数のマルチグラフ畳み込み(MGC)ネットワークを組み合わせて、異なるサービスモードの要求を予測する深層マルチタスクマルチグラフ学習手法を提案する。
提案手法は,様々な配車モードの予測精度において,ベンチマークアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T07:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。