論文の概要: Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search
- arxiv url: http://arxiv.org/abs/2602.13704v1
- Date: Sat, 14 Feb 2026 10:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.353613
- Title: Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search
- Title(参考訳): Pailitao-VL:リアルタイムマルチモーダル産業検索のための統一埋め込みとリランカ
- Authors: Lei Chen, Chen Ju, Xu Chen, Zhicheng Wang, Yuheng Jiao, Hongfeng Zhan, Zhaoyang Li, Shihao Xu, Zhixiang Zhao, Tong Jia, Jinsong Lan, Xiaoyong Zhu, Bo Zheng,
- Abstract要約: Pailitao-VLは、リアルタイム産業検索のために設計された総合的なマルチモーダル検索システムである。
我々は,現在のSOTAソリューションにおける3つの重要な課題に対処する。
この研究は、大規模生産環境に高度なMLLMベースの検索アーキテクチャを展開するための、堅牢でスケーラブルな経路を示す。
- 参考スコア(独自算出の注目度): 31.824675235862532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we presented Pailitao-VL, a comprehensive multi-modal retrieval system engineered for high-precision, real-time industrial search. We here address three critical challenges in the current SOTA solution: insufficient retrieval granularity, vulnerability to environmental noise, and prohibitive efficiency-performance gap. Our primary contribution lies in two fundamental paradigm shifts. First, we transitioned the embedding paradigm from traditional contrastive learning to an absolute ID-recognition task. Through anchoring instances to a globally consistent latent space defined by billions of semantic prototypes, we successfully overcome the stochasticity and granularity bottlenecks inherent in existing embedding solutions. Second, we evolved the generative reranker from isolated pointwise evaluation to the compare-and-calibrate listwise policy. By synergizing chunk-based comparative reasoning with calibrated absolute relevance scoring, the system achieves nuanced discriminative resolution while circumventing the prohibitive latency typically associated with conventional reranking methods. Extensive offline benchmarks and online A/B tests on Alibaba e-commerce platform confirm that Pailitao-VL achieves state-of-the-art performance and delivers substantial business impact. This work demonstrates a robust and scalable path for deploying advanced MLLM-based retrieval architectures in demanding, large-scale production environments.
- Abstract(参考訳): 本研究では,高精度でリアルタイムな産業検索を目的とした総合的マルチモーダル検索システムPailitao-VLを提案する。
ここでは、現在のSOTAソリューションにおける3つの重要な課題として、検索の粒度不足、環境騒音の脆弱性、効率と性能のギャップの禁止を挙げる。
私たちの主な貢献は、2つの基本的なパラダイムシフトにあります。
まず、埋め込みパラダイムを従来のコントラスト学習から絶対的なID認識タスクに移行した。
数十億のセマンティックプロトタイプによって定義されるグローバルに一貫した潜在空間にインスタンスを固定することで、既存の埋め込みソリューションに固有の確率性と粒度のボトルネックを克服することに成功した。
第2に,ジェネレーティブ・リランカを,孤立点評価から比較・校正点評価へと進化させた。
チャンクベースの比較推論を校正絶対関連度スコアと相乗化することにより、従来のリグレード法と典型的に関連する禁止レイテンシを回避するとともに、識別の難しさを解消する。
Alibabaのeコマースプラットフォーム上での大規模なオフラインベンチマークとオンラインA/Bテストは、Pailitao-VLが最先端のパフォーマンスを達成し、大きなビジネス効果をもたらすことを確認している。
この研究は、大規模生産環境に高度なMLLMベースの検索アーキテクチャを展開するための、堅牢でスケーラブルな経路を示す。
関連論文リスト
- SAGE: Scalable AI Governance & Evaluation [10.238041570564395]
textbfSAGEは、スケーラブルな評価信号として高品質な製品判断を運用するフレームワークである。
SAGEはLinkedIn Searchエコシステム内にデプロイされ、モデルバリエーションの増大を計測し、エンゲージメントメトリクスに見えない回帰を検出する、ポリシの監視に使用された。
論文 参考訳(メタデータ) (2026-02-08T06:42:50Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文 参考訳(メタデータ) (2025-04-16T09:48:41Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - Exploring Large Vision-Language Models for Robust and Efficient Industrial Anomaly Detection [4.691083532629246]
CLAD(Contrastive Cross-Modal Training)を用いた視覚言語異常検出法を提案する。
CLADは、視覚的特徴とテキスト的特徴をコントラスト学習を用いて共有埋め込み空間に整列する。
CLADは画像レベルの異常検出と画素レベルの異常局所化の両方において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-01T17:00:43Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。