論文の概要: OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search
- arxiv url: http://arxiv.org/abs/2510.05759v1
- Date: Tue, 07 Oct 2025 10:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.200507
- Title: OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search
- Title(参考訳): OneVision:マルチビューEコマースビジョン検索のためのエンドツーエンド生成フレームワーク
- Authors: Zexin Zheng, Huangyu Dai, Lingtao Mao, Xinyu Sun, Zihan Liang, Ben Chen, Yuqing Ding, Chenyi Lei, Wenwu Ou, Han Li, Kun Gai,
- Abstract要約: OneVisionは、視覚検索のためのエンドツーエンドの生成フレームワークである。
OneVisionは、視覚対応の残留量子化符号化であるVRQ上に構築されている。
オフライン評価では、OneVisionはオンラインMCAと同等に動作し、推論効率を21%向上させる。
- 参考スコア(独自算出の注目度): 23.65549831170715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional vision search, similar to search and recommendation systems, follows the multi-stage cascading architecture (MCA) paradigm to balance efficiency and conversion. Specifically, the query image undergoes feature extraction, recall, pre-ranking, and ranking stages, ultimately presenting the user with semantically similar products that meet their preferences. This multi-view representation discrepancy of the same object in the query and the optimization objective collide across these stages, making it difficult to achieve Pareto optimality in both user experience and conversion. In this paper, an end-to-end generative framework, OneVision, is proposed to address these problems. OneVision builds on VRQ, a vision-aligned residual quantization encoding, which can align the vastly different representations of an object across multiple viewpoints while preserving the distinctive features of each product as much as possible. Then a multi-stage semantic alignment scheme is adopted to maintain strong visual similarity priors while effectively incorporating user-specific information for personalized preference generation. In offline evaluations, OneVision performs on par with online MCA, while improving inference efficiency by 21% through dynamic pruning. In A/B tests, it achieves significant online improvements: +2.15% item CTR, +2.27% CVR, and +3.12% order volume. These results demonstrate that a semantic ID centric, generative architecture can unify retrieval and personalization while simplifying the serving pathway.
- Abstract(参考訳): 従来の視覚探索は、探索とレコメンデーションシステムと同様に、効率と変換のバランスをとるための多段階カスケードアーキテクチャ(MCA)パラダイムに従っている。
具体的には、クエリイメージが特徴抽出、リコール、事前ランク付け、ランキングステージを実行し、最終的にユーザが好みを満たすセマンティックに類似した製品を提示する。
クエリにおける同じオブジェクトのマルチビュー表現の相違と最適化目標がこれらのステージ間で衝突し、ユーザエクスペリエンスと変換の両方においてParetoの最適性を達成するのが難しくなる。
本稿では,この問題を解決するために,エンドツーエンド生成フレームワークであるOneVisionを提案する。
OneVisionは、視覚的に整合した残留量子化エンコーディングであるVRQの上に構築されており、複数の視点にまたがってオブジェクトの非常に異なる表現を調整できると同時に、各製品の特徴的な特徴を可能な限り保存することができる。
次に、パーソナライズされた嗜好生成にユーザ固有の情報を効果的に取り入れつつ、強い視覚的類似性を維持するために、多段階のセマンティックアライメント方式を採用する。
オフライン評価では、OneVisionはオンラインMCAと同等に動作し、動的プルーニングにより推論効率を21%改善する。
A/Bテストでは、+2.15%の項目CTR、+2.27%のCVR、+3.12%のオーダーボリュームの大幅な改善を実現している。
これらの結果から、意味的ID中心の生成的アーキテクチャは、提供経路を簡素化しながら、検索とパーソナライズを統一できることが示された。
関連論文リスト
- OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search [43.94443394870866]
OneSearchは、eコマース検索のための最初の産業向けエンドツーエンド生成フレームワークである。
OneSearchは運用費を75.40%削減し、Model FLOPsの利用を3.26%から27.32%に改善した。
このシステムはKuaishouの複数の検索シナリオにまたがって展開され、数百万のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2025-09-03T11:50:04Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization [13.178750787401263]
VisPathは構造化されたマルチステージ処理を通じて、不特定クエリを処理する。
最初はChain-of-Thoughtプロンプトを通じてユーザ入力をリフォームする。
VisPathは、最適な最終結果を合成するために集約されたターゲットフィードバックを生成する。
論文 参考訳(メタデータ) (2025-02-16T14:09:42Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。