論文の概要: OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search
- arxiv url: http://arxiv.org/abs/2510.05759v3
- Date: Sat, 01 Nov 2025 09:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.293597
- Title: OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search
- Title(参考訳): OneVision:マルチビューEコマースビジョン検索のためのエンドツーエンド生成フレームワーク
- Authors: Zexin Zheng, Huangyu Dai, Lingtao Mao, Xinyu Sun, Zihan Liang, Ben Chen, Yuqing Ding, Chenyi Lei, Wenwu Ou, Han Li, Kun Gai,
- Abstract要約: OneVisionは、視覚検索のためのエンドツーエンドの生成フレームワークである。
OneVisionは、視覚対応の残留量子化符号化であるVRQ上に構築されている。
オフライン評価では、OneVisionはオンラインMCAと同等に動作し、推論効率を21%向上させる。
- 参考スコア(独自算出の注目度): 23.65549831170715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional vision search, similar to search and recommendation systems, follows the multi-stage cascading architecture (MCA) paradigm to balance efficiency and conversion. Specifically, the query image undergoes feature extraction, recall, pre-ranking, and ranking stages, ultimately presenting the user with semantically similar products that meet their preferences. This multi-view representation discrepancy of the same object in the query and the optimization objective collide across these stages, making it difficult to achieve Pareto optimality in both user experience and conversion. In this paper, an end-to-end generative framework, OneVision, is proposed to address these problems. OneVision builds on VRQ, a vision-aligned residual quantization encoding, which can align the vastly different representations of an object across multiple viewpoints while preserving the distinctive features of each product as much as possible. Then a multi-stage semantic alignment scheme is adopted to maintain strong visual similarity priors while effectively incorporating user-specific information for personalized preference generation. In offline evaluations, OneVision performs on par with online MCA, while improving inference efficiency by 21% through dynamic pruning. In A/B tests, it achieves significant online improvements: +2.15% item CTR, +2.27% CVR, and +3.12% order volume. These results demonstrate that a semantic ID centric, generative architecture can unify retrieval and personalization while simplifying the serving pathway.
- Abstract(参考訳): 従来の視覚探索は、探索とレコメンデーションシステムと同様に、効率と変換のバランスをとるための多段階カスケードアーキテクチャ(MCA)パラダイムに従っている。
具体的には、クエリイメージが特徴抽出、リコール、事前ランク付け、ランキングステージを実行し、最終的にユーザが好みを満たすセマンティックに類似した製品を提示する。
クエリにおける同じオブジェクトのマルチビュー表現の相違と最適化目標がこれらのステージ間で衝突し、ユーザエクスペリエンスと変換の両方においてParetoの最適性を達成するのが難しくなる。
本稿では,この問題を解決するために,エンドツーエンド生成フレームワークであるOneVisionを提案する。
OneVisionは、視覚的に整合した残留量子化エンコーディングであるVRQの上に構築されており、複数の視点にまたがってオブジェクトの非常に異なる表現を調整できると同時に、各製品の特徴的な特徴を可能な限り保存することができる。
次に、パーソナライズされた嗜好生成にユーザ固有の情報を効果的に取り入れつつ、強い視覚的類似性を維持するために、多段階のセマンティックアライメント方式を採用する。
オフライン評価では、OneVisionはオンラインMCAと同等に動作し、動的プルーニングにより推論効率を21%改善する。
A/Bテストでは、+2.15%の項目CTR、+2.27%のCVR、+3.12%のオーダーボリュームの大幅な改善を実現している。
これらの結果から、意味的ID中心の生成的アーキテクチャは、提供経路を簡素化しながら、検索とパーソナライズを統一できることが示された。
関連論文リスト
- CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search [43.94443394870866]
OneSearchは、eコマース検索のための最初の産業向けエンドツーエンド生成フレームワークである。
OneSearchは運用費を75.40%削減し、Model FLOPsの利用を3.26%から27.32%に改善した。
このシステムはKuaishouの複数の検索シナリオにまたがって展開され、数百万のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2025-09-03T11:50:04Z) - MPFormer: Adaptive Framework for Industrial Multi-Task Personalized Sequential Retriever [22.507173183511153]
MPFormerは、産業レコメンデーションシステムのための動的マルチタスクトランスフォーマーフレームワークである。
Kuaishouのショートビデオレコメンデーションシステムにうまく統合され、毎日4億人のアクティブユーザーが利用できる。
論文 参考訳(メタデータ) (2025-08-28T03:53:55Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。
まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文 参考訳(メタデータ) (2025-03-07T08:36:05Z) - Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization [13.178750787401263]
VisPathは構造化されたマルチステージ処理を通じて、不特定クエリを処理する。
最初はChain-of-Thoughtプロンプトを通じてユーザ入力をリフォームする。
VisPathは、最適な最終結果を合成するために集約されたターゲットフィードバックを生成する。
論文 参考訳(メタデータ) (2025-02-16T14:09:42Z) - CONDEN-FI: Consistency and Diversity Learning-based Multi-View Unsupervised Feature and In-stance Co-Selection [8.985835077643953]
我々はconsistency and DivErsity learNing-based multi-view unsupervised Feature and Instance co-selection (CONDEN-FI)を提案する。
CONDEN-FIは、サンプルと特徴空間の両方からmul-ti-viewデータを再構成し、ビュー間で一貫性があり、各ビューに特有の表現を学ぶ。
結果の最適化問題を解決するために,効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-12-09T15:24:11Z) - All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation [28.62276713652864]
我々は,人間の共同ビジョンのための既存の符号化モデルにMPA(Multi-Path Aggregation)を統合することを提案する。
MPAはタスク固有のパスに遅延特徴を割り当てるために予測器を使用する。
MPAはタスク特化最適化と多目的最適化の両方において最先端の手法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-09-29T11:14:21Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。