Fugu-MT 論文翻訳(概要): DashCLIP: Leveraging multimodal models for generating semantic embeddings for DoorDash

論文の概要: DashCLIP: Leveraging multimodal models for generating semantic embeddings for DoorDash

arxiv url: http://arxiv.org/abs/2504.07110v1
Date: Tue, 18 Mar 2025 20:38:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-20 18:52:14.216876
Title: DashCLIP: Leveraging multimodal models for generating semantic embeddings for DoorDash
Title（参考訳）: DashCLIP: DoorDashのセマンティック埋め込みを生成するためのマルチモーダルモデルを活用する
Authors: Omkar Gurjar, Kin Sum Liu, Praveen Kolli, Utsaw Kumar, Mandar Rahurkar,
Abstract要約: 画像テキストデータに対するコントラスト学習を通じて,ユニモーダルエンコーダとマルチモーダルエンコーダを整列させることにより,製品およびユーザクエリのための共同トレーニングフレームワークを導入する。提案手法では,クエリエンコーダをLLM計算した関連データセットでトレーニングし,エンゲージメント履歴への依存を解消する。パーソナライズされた広告レコメンデーションでは、デプロイ後のクリックスルー率と変換レートが大きく上昇し、主要なビジネス指標への影響を確認します。
参考スコア（独自算出の注目度）: 0.4288177321445912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the success of vision-language models in various generative tasks, obtaining high-quality semantic representations for products and user intents is still challenging due to the inability of off-the-shelf models to capture nuanced relationships between the entities. In this paper, we introduce a joint training framework for product and user queries by aligning uni-modal and multi-modal encoders through contrastive learning on image-text data. Our novel approach trains a query encoder with an LLM-curated relevance dataset, eliminating the reliance on engagement history. These embeddings demonstrate strong generalization capabilities and improve performance across applications, including product categorization and relevance prediction. For personalized ads recommendation, a significant uplift in the click-through rate and conversion rate after the deployment further confirms the impact on key business metrics. We believe that the flexibility of our framework makes it a promising solution toward enriching the user experience across the e-commerce landscape.
Abstract（参考訳）: 様々な生成タスクにおける視覚言語モデルの成功にもかかわらず、製品とユーザ意図の高品質なセマンティック表現を得るのは難しい。本稿では,画像テキストデータに対するコントラスト学習を通じて,ユニモーダルエンコーダとマルチモーダルエンコーダを整列させることにより,製品とユーザ問合せのための共同トレーニングフレームワークを提案する。提案手法では,クエリエンコーダをLLM計算された関連データセットでトレーニングし,エンゲージメント履歴への依存を解消する。これらの埋め込みは強力な一般化能力を示し、製品分類や関連予測を含むアプリケーション全体のパフォーマンスを向上させる。パーソナライズされた広告レコメンデーションでは、クリックスルー率とデプロイ後の変換率が大きく上昇し、主要なビジネス指標への影響をさらに確認する。当社のフレームワークの柔軟性は、Eコマースの世界におけるユーザエクスペリエンスを豊かにするための、有望なソリューションだと信じています。

関連論文リスト

Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-28T17:57:32Z)
Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
LiMAML: Personalization of Deep Recommender Models via Meta Learning [13.69036196446634]
我々は、個人メンバーや他のエンティティのためのモデルのパーソナライズに適した革新的なメタラーニングソリューションを導入する。モデル非依存メタラーニング(MAML)アルゴリズムを用いて,最近のユーザインタラクションデータを用いて,タスクごとのサブネットワークを適応する。私たちのアプローチは、さまざまなLinkedInアプリケーションにまたがる、高度にパーソナライズされたAIモデルのデプロイを可能にしました。
論文参考訳（メタデータ） (2024-02-23T22:06:36Z)
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文参考訳（メタデータ） (2023-11-28T03:00:59Z)
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文参考訳（メタデータ） (2023-08-22T04:06:56Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文参考訳（メタデータ） (2022-07-01T05:16:47Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。