論文の概要: Image-Seeking Intent Prediction for Cross-Device Product Search
- arxiv url: http://arxiv.org/abs/2511.14764v1
- Date: Tue, 16 Sep 2025 14:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.195846
- Title: Image-Seeking Intent Prediction for Cross-Device Product Search
- Title(参考訳): クロスデバイス製品検索のための画像探索インテント予測
- Authors: Mariya Hendriksen, Svitlana Vakulenko, Jordan Massiah, Gabriella Kazai, Emine Yilmaz,
- Abstract要約: 大規模言語モデル(LLM)は、eコマースにおけるパーソナライズされた検索、レコメンデーション、顧客インタラクションを変革している。
クエリが視覚的な拡張を必要とする場合の予測と、製品発見を改善するためのクロスデバイススイッチの課題に対処する。
LLM駆動型eコマースアシスタントの新たなタスクであるImage-Seeking Intent Predictionを導入する。
- 参考スコア(独自算出の注目度): 20.700067021232417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are transforming personalized search, recommendations, and customer interaction in e-commerce. Customers increasingly shop across multiple devices, from voice-only assistants to multimodal displays, each offering different input and output capabilities. A proactive suggestion to switch devices can greatly improve the user experience, but it must be offered with high precision to avoid unnecessary friction. We address the challenge of predicting when a query requires visual augmentation and a cross-device switch to improve product discovery. We introduce Image-Seeking Intent Prediction, a novel task for LLM-driven e-commerce assistants that anticipates when a spoken product query should proactively trigger a visual on a screen-enabled device. Using large-scale production data from a multi-device retail assistant, including 900K voice queries, associated product retrievals, and behavioral signals such as image carousel engagement, we train IRP (Image Request Predictor), a model that leverages user input query and corresponding retrieved product metadata to anticipate visual intent. Our experiments show that combining query semantics with product data, particularly when improved through lightweight summarization, consistently improves prediction accuracy. Incorporating a differentiable precision-oriented loss further reduces false positives. These results highlight the potential of LLMs to power intelligent, cross-device shopping assistants that anticipate and adapt to user needs, enabling more seamless and personalized e-commerce experiences.
- Abstract(参考訳): 大規模言語モデル(LLM)は、eコマースにおけるパーソナライズされた検索、レコメンデーション、顧客インタラクションを変革している。
顧客は音声のみのアシスタントからマルチモーダルディスプレイまで、さまざまなデバイスで買い物をするようになっている。
デバイスを切り替えるための積極的な提案は、ユーザエクスペリエンスを大幅に改善するが、不要な摩擦を避けるために、高い精度で提供する必要がある。
クエリが視覚的な拡張を必要とする場合の予測と、製品発見を改善するためのクロスデバイススイッチの課題に対処する。
LLM駆動型eコマースアシスタントの新たなタスクであるImage-Seeking Intent Predictionを導入する。
900K音声クエリ、関連製品検索、画像カルーセルエンゲージメントなどの行動信号を含む多デバイス小売アシスタントからの大規模生産データを用いて、ユーザ入力クエリと対応する製品メタデータを活用するモデルであるIRP(Image Request Predictor)を訓練し、視覚的意図を予測する。
我々の実験は、クエリセマンティクスと製品データを組み合わせることで、特に軽量な要約によって改善された場合、予測精度が一貫して向上することを示した。
微分可能な精度指向の損失を組み込むと、さらに偽陽性が減少する。
これらの結果は、ユーザニーズに適応し、よりシームレスでパーソナライズされたeコマース体験を可能にする、インテリジェントでクロスデバイスなショッピングアシスタントを実現するLLMの可能性を浮き彫りにしている。
関連論文リスト
- IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - A Generative Framework for Personalized Sticker Retrieval [73.57899194210141]
我々はパーソナライズされたステッカー検索のための新しい生成フレームワークであるPEARLを提案する。
i) ユーザ固有のステッカー嗜好を符号化するために,識別的ユーザ表現を学習するための表現学習モデルを設計し, (ii) ユーザのクエリ意図に合致したステッカーを生成するために, 新たな意図認識学習目標を提案する。
オフライン評価とオンラインテストの両方による実証的な結果は、PEARLが最先端の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-22T13:11:44Z) - SessionIntentBench: A Multi-task Inter-session Intention-shift Modeling Benchmark for E-commerce Customer Behavior Understanding [64.45047674586671]
本稿では,意図木の概念を導入し,データセットキュレーションパイプラインを提案する。
我々は,L(V)LMsのセッション間意図シフト理解能力を評価するマルチモーダルベンチマークSessionIntentBenchを構築した。
1,952,177の意図的エントリ,1,132,145のセッション意図軌跡,および10,905のセッションを使用してマイニングされた13,003,664のタスクにより,既存のセッションデータを活用可能なスケーラブルな方法を提供する。
論文 参考訳(メタデータ) (2025-07-27T09:04:17Z) - DashCLIP: Leveraging multimodal models for generating semantic embeddings for DoorDash [0.12314765641075437]
画像テキストデータに対するコントラスト学習を通じて,ユニモーダルエンコーダとマルチモーダルエンコーダを整列させることにより,製品およびユーザクエリのための共同トレーニングフレームワークを導入する。
提案手法では,クエリエンコーダをLLM計算した関連データセットでトレーニングし,エンゲージメント履歴への依存を解消する。
パーソナライズされた広告レコメンデーションでは、デプロイ後のクリックスルー率と変換レートが大きく上昇し、主要なビジネス指標への影響を確認します。
論文 参考訳(メタデータ) (2025-03-18T20:38:31Z) - Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [50.714983524814606]
現在の画像生成システムは高品質な画像を生成するが、曖昧なユーザープロンプトに苦慮している。
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
論文 参考訳(メタデータ) (2025-01-25T10:32:00Z) - Multi-Modality Transformer for E-Commerce: Inferring User Purchase Intention to Bridge the Query-Product Gap [1.2356255208135267]
PINCERは初期ユーザクエリを擬似積表現に変換する。
我々は,eコマースオンライン検索における最先端の代替手段よりも,モデルの性能が優れていることを実証する。
論文 参考訳(メタデータ) (2025-01-21T23:47:39Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - PENTATRON: PErsonalized coNText-Aware Transformer for Retrieval-based
cOnversational uNderstanding [18.788620612619823]
スマートデジタルアシスタントを使用した顧客からのグローバルトラフィックの大部分が、対話の摩擦は誤った理解による可能性がある。
スケーラブルなエンティティ補正システムであるPENTATRONを構築し評価する。
キーメトリック(Exact Match)が最大500.97%上昇することを示す。
論文 参考訳(メタデータ) (2022-10-22T00:14:47Z) - ACE-BERT: Adversarial Cross-modal Enhanced BERT for E-commerce Retrieval [6.274310862007448]
本稿では,効率的なEコマース検索のための新しいアドリラルクロスモーダル拡張BERT(ACE-BERT)を提案する。
事前訓練された拡張BERTをバックボーンネットワークとして、ACE-BERTは異なるモダリティ表現の分布一貫性を確保するために、逆学習を採用する。
実験の結果,ACE-BERTは検索作業における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2021-12-14T07:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。