論文の概要: Feature Fusion Revisited: Multimodal CTR Prediction for MMCTR Challenge
- arxiv url: http://arxiv.org/abs/2504.18961v1
- Date: Sat, 26 Apr 2025 16:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.068573
- Title: Feature Fusion Revisited: Multimodal CTR Prediction for MMCTR Challenge
- Title(参考訳): MMCTRチャレンジのためのマルチモーダルCTR予測
- Authors: Junjie Zhou,
- Abstract要約: EReL@MIRワークショップは、マルチモーダル表現学習の効率向上を目的とした様々なアプローチを試す貴重な機会となった。
我がチームは第2タスク-勝者賞(Multimodal CTR Prediction)を受賞した。
- 参考スコア(独自算出の注目度): 4.3058911704400415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), an increasing number of researchers are exploring their application in recommendation systems. However, the high latency associated with large models presents a significant challenge for such use cases. The EReL@MIR workshop provided a valuable opportunity to experiment with various approaches aimed at improving the efficiency of multimodal representation learning for information retrieval tasks. As part of the competition's requirements, participants were mandated to submit a technical report detailing their methodologies and findings. Our team was honored to receive the award for Task 2 - Winner (Multimodal CTR Prediction). In this technical report, we present our methods and key findings. Additionally, we propose several directions for future work, particularly focusing on how to effectively integrate recommendation signals into multimodal representations. The codebase for our implementation is publicly available at: https://github.com/Lattice-zjj/MMCTR_Code, and the trained model weights can be accessed at: https://huggingface.co/FireFlyCourageous/MMCTR_DIN_MicroLens_1M_x1.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩に伴い、リコメンデーションシステムにおける応用を探求する研究者が増えている。
しかし、大きなモデルに付随する高いレイテンシは、そのようなユースケースにとって大きな課題となる。
EReL@MIRワークショップは、情報検索タスクにおけるマルチモーダル表現学習の効率向上を目的とした様々なアプローチを試す貴重な機会となった。
コンペティションの要件の一部として、参加者は彼らの方法論と調査結果を詳述したテクニカルレポートを提出するよう義務付けられていた。
我がチームは第2タスク - 勝者 (Multimodal CTR Prediction) を受賞した。
本報告では,本手法と重要な知見について述べる。
さらに,今後の研究の方向性,特にマルチモーダル表現に効率的にレコメンデーション信号を統合する方法について提案する。
私たちの実装のコードベースは、https://github.com/Lattice-zjj/MMCTR_Codeで公開されており、トレーニングされたモデルの重み付けは、https://huggingface.co/FireFlyCourageous/MMCTR_DIN_MicroLens_1M_x1でアクセスできます。
関連論文リスト
- Quadratic Interest Network for Multimodal Click-Through Rate Prediction [12.989347150912685]
産業レコメンデーションシステムにおいて,マルチモーダルクリックスルー率(CTR)予測は重要な手法である。
マルチモーダルCTR予測のためのQINと呼ばれるタスク2の新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:08:52Z) - The 1st EReL@MIR Workshop on Efficient Representation Learning for Multimodal Information Retrieval [49.587042083937426]
我々は,Web Conference 2025で初めてのEReL@MIRワークショップを提案し,参加者に新しいソリューションの探求を依頼する。
このワークショップは、学術と産業の両方の研究者が議論し、洞察を共有し、コラボレーションを促進するためのプラットフォームを提供することを目的としている。
論文 参考訳(メタデータ) (2025-04-21T01:10:59Z) - CROSSAN: Towards Efficient and Effective Adaptation of Multiple Multimodal Foundation Models for Sequential Recommendation [6.013740443562439]
MFM(Multimodal Foundation Models)は、様々な生のモダリティを表現できる。
シーケンシャルレコメンデーションにおけるMFMの応用は、まだほとんど解明されていない。
シーケンシャルレコメンデーションタスクに複数の (>2) MFM を効率的に適用できるかどうかは不明だ。
プラグアンドプレイ型クロスモーダルサイドアダプタネットワーク(CROSSAN)を提案する。
論文 参考訳(メタデータ) (2025-04-14T15:14:59Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation [9.506245109666907]
商品やサービスを特徴付ける多面的機能は、オンライン販売プラットフォームにおいて、各顧客に影響を与える可能性がある。
一般的なマルチモーダルレコメンデーションパイプラインは、(i)マルチモーダルな特徴の抽出、(ii)レコメンデーションタスクに適したハイレベルな表現の精製、(iv)ユーザイテムスコアの予測を含む。
本論文は,マルチモーダルレコメンデータシステムに対する大規模ベンチマークを行う最初の試みとして,特にマルチモーダル抽出器に着目したものである。
論文 参考訳(メタデータ) (2024-09-24T08:29:10Z) - Alt-MoE:A Scalable Framework for Bidirectional Multimodal Alignment and Efficient Knowledge Integration [6.928469290518152]
マルチモーダル学習は、共有潜在空間内で異なるモダリティを整列させることにより、著しく進歩した。
直接アライメントは、豊富なモダル内知識を十分に活用するのに苦労し、しばしばクロスモーダル表現を達成するために広範なトレーニングデータを必要とする。
Alt-MoEはスケーラブルなマルチモーダルアライメントフレームワークで、モダリティをまたいだ多方向コネクタとして専門家(MoE)モデルの混合を利用する。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z) - Multi-Task Fusion via Reinforcement Learning for Long-Term User
Satisfaction in Recommender Systems [3.4394890850129007]
バッチ強化学習に基づくマルチタスク融合フレームワーク(BatchRL-MTF)を提案する。
我々は、長期ユーザー満足のために、固定バッチデータから最適なレコメンデーションポリシーをオフラインで学習する。
ユーザの行動に関する包括的調査により,ユーザの定着度とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙にモデル化する。
論文 参考訳(メタデータ) (2022-08-09T06:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。