論文の概要: Zero-Shot Retail Theft Detection via Orchestrated Vision Models: A Model-Agnostic, Cost-Effective Alternative to Trained Single-Model Systems
- arxiv url: http://arxiv.org/abs/2604.14846v1
- Date: Thu, 16 Apr 2026 10:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.841574
- Title: Zero-Shot Retail Theft Detection via Orchestrated Vision Models: A Model-Agnostic, Cost-Effective Alternative to Trained Single-Model Systems
- Title(参考訳): オーケストレーションビジョンモデルによるゼロショットリテール盗難検出:訓練された単一モデルシステムに対するモデル非依存でコスト効果のある代替手段
- Authors: Haileab Yagersew,
- Abstract要約: Pazaはゼロショットの小売盗難検出フレームワークで、モデルをトレーニングすることなく、実用的な隠蔽検出を実現する。
当社のアプローチでは,動作前フィルタのトリガ時にのみ,高価な視覚言語モデル(VLM)を起動することで,複数の既存モデルを階層パイプラインでオーケストレーションする。
本稿では,1店舗あたり50~100ドル/月(商用代替品の3~10倍安い)の生存可能性を示す詳細なコストモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retail theft costs the global economy over \$100 billion annually, yet existing AI-based detection systems require expensive custom model training on proprietary datasets and charge \$200-500/month per store. We present Paza, a zero-shot retail theft detection framework that achieves practical concealment detection without training any model. Our approach orchestrates multiple existing models in a layered pipeline - cheap object detection and pose estimation running continuously, with an expensive vision-language model (VLM) invoked only when behavioral pre-filters trigger. A multi-signal suspicion pre-filter (requiring dwell time plus at least one behavioral signal) reduces VLM invocations by 240x compared to per-frame analysis, bounding calls to <=10/minute and enabling a single GPU to serve 10-20 stores. The architecture is model-agnostic: the VLM component accepts any OpenAI-compatible endpoint, enabling operators to swap between models such as Gemma 4, Qwen3.5-Omni, GPT-4o, or future releases without code changes - ensuring the system improves as the VLM landscape evolves. We evaluate the VLM component on the DCSASS synthesized shoplifting dataset (169 clips, controlled environment), achieving 89.5% precision and 92.8% specificity at 59.3% recall zero-shot - where the recall gap is attributable to sparse frame sampling in offline evaluation rather than VLM reasoning failures, as precision and specificity are the operationally critical metrics determining false alarm rates. We present a detailed cost model showing viability at \$50-100/month per store (3-10x cheaper than commercial alternatives), and introduce a privacy-preserving design that obfuscates faces in the detection pipeline. The source code is available at https://github.com/xHaileab/Paza-AI.
- Abstract(参考訳): リテール盗難は年間1000億ドルを超える世界経済を犠牲にするが、既存のAIベースの検知システムはプロプライエタリなデータセットで高価なカスタムモデルトレーニングを必要とし、ストア当たり200~500ドルを課金する。
我々は,モデルを訓練することなく,事実上の隠蔽検出を実現する,ゼロショット小売盗難検出フレームワークPazaを提案する。
当社のアプローチでは,動作前フィルタのトリガ時にのみ,高価な視覚言語モデル(VLM)を起動することで,安価なオブジェクト検出とポーズ推定を継続的に実施する,複数の既存モデルを階層パイプラインでオーケストレーションする。
複数信号の疑似前フィルタ(居住時間と少なくとも1つの行動信号を必要とする)は、フレーム毎の分析に比べてVLMの呼び出しを240倍削減し、<=10/分以内の呼び出しをバウンディングし、単一のGPUが10~20のストアに接続できるようにする。
VLMコンポーネントはOpenAI互換のエンドポイントを受け入れており、オペレーターはGemma 4、Qwen3.5-Omni、GPT-4o、将来のリリースをコード変更なしで切り替えることができる。
我々は,DCSASS合成万引きデータセット(169クリップ,制御環境)上のVLM成分を評価し,89.5%の精度と92.8%の特異性を59.3%のリコールゼロショットで達成した。
本稿では,1店舗あたり50~100ドル/月(商用代替品の3~10倍安い)の生存可能性を示す詳細なコストモデルを提案する。
ソースコードはhttps://github.com/xHaileab/Paza-AIで入手できる。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Semantic-Drive: Democratizing Long-Tail Data Curation via Open-Vocabulary Grounding and Neuro-Symbolic VLM Consensus [0.0]
セマンティックドライブ(Semantic-Drive)は、セマンティックなデータマイニングのための、ローカルファーストで、ニューロシンボリックなフレームワークである。
提案手法は,(1)リアルタイムオープン語彙検出装置(YOLOE)によるグラウンドニングと,(2)推論VLMによる認知分析の2つの段階に分離する。
論文 参考訳(メタデータ) (2025-12-12T20:07:04Z) - Robust Object Detection with Pseudo Labels from VLMs using Per-Object Co-teaching [1.53934570513443]
この研究は、効率的でリアルタイムな物体検出器を訓練するための擬似ラベルを自動的に生成する新しいパイプラインを導入している。
私たちの重要な革新は、VLM生成ラベルに固有のノイズを緩和する、オブジェクトごとのコティーチングベースのトレーニング戦略です。
全体として、私たちのパイプラインは、自律運転のための高性能物体検出器を訓練するための、効率的で堅牢でスケーラブルなアプローチを提供します。
論文 参考訳(メタデータ) (2025-11-13T04:37:35Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Certifiably Robust Model Evaluation in Federated Learning under Meta-Distributional Shifts [8.700087812420687]
異なるネットワーク "B" 上でモデルの性能を保証する。
我々は、原則付きバニラDKWバウンダリが、同じ(ソース)ネットワーク内の未確認クライアント上で、モデルの真のパフォーマンスの認証を可能にする方法を示す。
論文 参考訳(メタデータ) (2024-10-26T18:45:15Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。