論文の概要: MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising
- arxiv url: http://arxiv.org/abs/2511.11305v2
- Date: Tue, 18 Nov 2025 16:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.654505
- Title: MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising
- Title(参考訳): MOON埋め込み:eコマース検索広告のためのマルチモーダル表現学習
- Authors: Chenghan Fu, Daoze Zhang, Yukang Lin, Zhanheng Nie, Xiang Zhang, Jianyu Liu, Yueran Liu, Wanxian Guan, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: 我々は、eコマースアプリケーションのためのマルチモーダル表現学習のための持続可能な反復的プラクティスの包括的セットであるMOONを紹介する。
月はすでに、Taobao検索広告システムの全段階にわたって完全に展開されている。
MOONはデータ処理、トレーニング戦略、モデルアーキテクチャ、下流アプリケーションという4つの重要な側面に沿って進化してきた。
- 参考スコア(独自算出の注目度): 15.973876554014119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MOON, our comprehensive set of sustainable iterative practices for multimodal representation learning for e-commerce applications. MOON has already been fully deployed across all stages of Taobao search advertising system, including retrieval, relevance, ranking, and so on. The performance gains are particularly significant on click-through rate (CTR) prediction task, which achieves an overall +20.00% online CTR improvement. Over the past three years, this project has delivered the largest improvement on CTR prediction task and undergone five full-scale iterations. Throughout the exploration and iteration of our MOON, we have accumulated valuable insights and practical experience that we believe will benefit the research community. MOON contains a three-stage training paradigm of "Pretraining, Post-training, and Application", allowing effective integration of multimodal representations with downstream tasks. Notably, to bridge the misalignment between the objectives of multimodal representation learning and downstream training, we define the exchange rate to quantify how effectively improvements in an intermediate metric can translate into downstream gains. Through this analysis, we identify the image-based search recall as a critical intermediate metric guiding the optimization of multimodal models. Over three years and five iterations, MOON has evolved along four critical dimensions: data processing, training strategy, model architecture, and downstream application. The lessons and insights gained through the iterative improvements will also be shared. As part of our exploration into scaling effects in the e-commerce field, we further conduct a systematic study of the scaling laws governing multimodal representation learning, examining multiple factors such as the number of training tokens, negative samples, and the length of user behavior sequences.
- Abstract(参考訳): 我々は、eコマースアプリケーションのためのマルチモーダル表現学習のための持続可能な反復的プラクティスの包括的セットであるMOONを紹介する。
MOONはすでに、検索、関連性、ランキングなど、Taobao検索広告システムの全段階にわたって完全に展開されている。
この性能向上はクリックスルー率(CTR)予測タスクにおいて特に重要であり、全体のCTR改善率は20.00%である。
過去3年間で、このプロジェクトはCTR予測タスクを最大に改善し、5回のフルスケールイテレーションを実施した。
我々はMOONの探索と反復を通じて、研究コミュニティに利益をもたらすと信じている貴重な洞察と実践的な経験を蓄積してきた。
MOONには3段階のトレーニングパラダイムである"Pretraining, Post-training, and Application"が含まれており、下流タスクとマルチモーダル表現を効果的に統合することができる。
特に、マルチモーダル表現学習と下流学習の目的の相違を補うために、中間メトリックの改善が下流ゲインにいかに効果的に変換できるかを定量化するために、交換率を定義する。
この分析により、画像に基づく検索リコールを、マルチモーダルモデルの最適化を導く重要な中間指標として同定する。
3年と5回のイテレーションを経て、MOONはデータ処理、トレーニング戦略、モデルアーキテクチャ、下流アプリケーションという4つの重要な側面に沿って進化してきた。
反復的な改善を通じて得られた教訓と洞察も共有される。
電子商取引分野におけるスケーリング効果の探索の一環として,マルチモーダル表現学習を規定するスケーリング法則を体系的に研究し,トレーニングトークン数,ネガティブサンプル数,ユーザ行動列の長さなど,複数の要因について検討する。
関連論文リスト
- SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。
SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。
具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。
協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文 参考訳(メタデータ) (2025-10-14T16:43:22Z) - Multi-modal Relational Item Representation Learning for Inferring Substitutable and Complementary Items [10.98931494075836]
本稿では,代替品や補完品を推論するための,自己教師型マルチモーダル・リレーショナル・アイテム表現学習フレームワークを提案する。
MMSCは,(1)マルチモーダルな基本モデルを活用して項目メタデータから学習するマルチモーダルな項目表現学習モジュール,(2)ユーザ行動データから学習する自己教師型行動ベース表現学習モジュール,(3)セマンティックおよびタスクレベルで項目表現を統合する階層型表現集約機構の3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-29T22:38:39Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition [31.992543274210835]
我々は、ASRタスクのさらなる改善を実現するために、いくつかのアプローチを特定し、統合する。
特に、マルチロスは共同CTC/AED損失を指し、マルチパスはMixture-of-Experts(MoE)アーキテクチャを表す。
WenetSpeechデータセットを用いて提案手法の評価を行い,提案手法がCERの相対的改善を12.2%-17.6%に与えることを示す。
論文 参考訳(メタデータ) (2022-04-07T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。