論文の概要: Multimodal Generative Retrieval Model with Staged Pretraining for Food Delivery on Meituan
- arxiv url: http://arxiv.org/abs/2602.06654v1
- Date: Fri, 06 Feb 2026 12:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.394245
- Title: Multimodal Generative Retrieval Model with Staged Pretraining for Food Delivery on Meituan
- Title(参考訳): 食品配送のための段階的事前訓練による多モーダル生成検索モデル
- Authors: Boyu Chen, Tai Guo, Weiyu Cui, Yuqing Li, Xingxing Wang, Chuan Shi, Cheng Yang,
- Abstract要約: 食品配送などのシナリオにおいて,マルチモーダル検索モデルの重要性が高まっている。
本稿では,各段階における専門的なタスクに焦点を合わせるための事前学習戦略を提案する。
高次元マルチモーダル埋め込みを圧縮するセマンティックIDをよりよく活用するために、生成的タスクと識別的タスクの両方を設計する。
- 参考スコア(独自算出の注目度): 30.893121144130664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal retrieval models are becoming increasingly important in scenarios such as food delivery, where rich multimodal features can meet diverse user needs and enable precise retrieval. Mainstream approaches typically employ a dual-tower architecture between queries and items, and perform joint optimization of intra-tower and inter-tower tasks. However, we observe that joint optimization often leads to certain modalities dominating the training process, while other modalities are neglected. In addition, inconsistent training speeds across modalities can easily result in the one-epoch problem. To address these challenges, we propose a staged pretraining strategy, which guides the model to focus on specialized tasks at each stage, enabling it to effectively attend to and utilize multimodal features, and allowing flexible control over the training process at each stage to avoid the one-epoch problem. Furthermore, to better utilize the semantic IDs that compress high-dimensional multimodal embeddings, we design both generative and discriminative tasks to help the model understand the associations between SIDs, queries, and item features, thereby improving overall performance. Extensive experiments on large-scale real-world Meituan data demonstrate that our method achieves improvements of 3.80%, 2.64%, and 2.17% on R@5, R@10, and R@20, and 5.10%, 4.22%, and 2.09% on N@5, N@10, and N@20 compared to mainstream baselines. Online A/B testing on the Meituan platform shows that our approach achieves a 1.12% increase in revenue and a 1.02% increase in click-through rate, validating the effectiveness and superiority of our method in practical applications.
- Abstract(参考訳): マルチモーダル検索モデルは,多様なユーザニーズに合ったリッチなマルチモーダル機能を実現し,正確な検索を可能にする,フードデリバリーなどのシナリオにおいて,ますます重要になりつつある。
主流のアプローチは、典型的にはクエリーとアイテム間の二重トウワーアーキテクチャを使用し、トウワー内およびトウワー間のタスクを共同で最適化する。
しかし,共同最適化はトレーニングプロセスに支配的な特定のモダリティをもたらすことが多く,他のモダリティは無視される。
さらに、モダリティ間の一貫性のないトレーニング速度は、ワンエポックな問題を容易に引き起こすことができる。
これらの課題に対処するため、我々は、モデルが各段階で専門的なタスクに集中するように誘導し、マルチモーダルな機能に効果的に参画し、活用できるようにし、各ステージにおけるトレーニングプロセスの柔軟な制御を可能にして、ワンエポックな問題を回避できるステージ事前学習戦略を提案する。
さらに、高次元マルチモーダル埋め込みを圧縮するセマンティックIDをよりよく活用するために、生成タスクと識別タスクの両方を設計し、モデルがSID、クエリ、アイテムの特徴の関連を理解するのに役立つようにし、全体的な性能を向上させる。
大規模実世界のMeituanデータに対する大規模な実験により,本手法は主流のベースラインに比べて3.80%,2.64%,2.17%,R@5,R@10,R@20,5.10%,4.22%,2.09%,N@5,N@10,N@20の改善を達成した。
Meituanプラットフォーム上でのオンラインA/Bテストは、我々の手法が1.12%の収益増加と1.02%のクリックスルー率を達成することを示す。
関連論文リスト
- TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training [29.962039479618543]
マルチタスク・マルチモーダル・プレトレーニングのための新しいフレームワークであるTADS(Task-Aware Data Selection)を紹介する。
TADSは固有の品質、タスク関連性、分散多様性を学習可能な値関数に統合する。
フィードバック駆動型メタ学習機構は、プロキシモデルの性能に基づいて選択戦略を適応的に洗練する。
論文 参考訳(メタデータ) (2026-02-05T03:08:45Z) - SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。
SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。
具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。
協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文 参考訳(メタデータ) (2025-10-14T16:43:22Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs [14.531280062127442]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な能力を示してきたが、専門的なアプリケーションのための高性能なモデルを開発するには、かなりの人的アノテーションを必要とすることが多い。
本研究では,効率的なデータ選択の基本原理としてタスク多様性を活用することで,教師付き微調整(SFT)におけるラベル効率の学習問題に対処する。
提案手法は,1) 異なるプロンプトに対するタスクラベルが容易に利用できること,2) 事前学習されたモデルがタスク間の信頼度を著しく変化させること,の2つの重要な結果に基づいている。
論文 参考訳(メタデータ) (2025-07-29T03:51:00Z) - Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。
私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文 参考訳(メタデータ) (2025-07-17T03:08:26Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。