論文の概要: Efficient Retail Video Annotation: A Robust Key Frame Generation Approach for Product and Customer Interaction Analysis
- arxiv url: http://arxiv.org/abs/2506.14854v1
- Date: Tue, 17 Jun 2025 06:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.431772
- Title: Efficient Retail Video Annotation: A Robust Key Frame Generation Approach for Product and Customer Interaction Analysis
- Title(参考訳): 効率的なリテールビデオアノテーション:製品と顧客のインタラクション分析のためのロバストなキーフレーム生成アプローチ
- Authors: Varun Mannam, Zhenyu Shi,
- Abstract要約: 本稿では,小売ビデオのキーフレーム識別を自動化するディープラーニングベースのアプローチを提案する。
提案手法は,ビデオアノテーションにおける平均2倍のコスト削減につながる。
キーフレーム検出の自動化により、小売ビデオラベリングタスクの大幅な時間と労力の節約が可能になる。
- 参考スコア(独自算出の注目度): 1.0852294343899487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate video annotation plays a vital role in modern retail applications, including customer behavior analysis, product interaction detection, and in-store activity recognition. However, conventional annotation methods heavily rely on time-consuming manual labeling by human annotators, introducing non-robust frame selection and increasing operational costs. To address these challenges in the retail domain, we propose a deep learning-based approach that automates key-frame identification in retail videos and provides automatic annotations of products and customers. Our method leverages deep neural networks to learn discriminative features by embedding video frames and incorporating object detection-based techniques tailored for retail environments. Experimental results showcase the superiority of our approach over traditional methods, achieving accuracy comparable to human annotator labeling while enhancing the overall efficiency of retail video annotation. Remarkably, our approach leads to an average of 2 times cost savings in video annotation. By allowing human annotators to verify/adjust less than 5% of detected frames in the video dataset, while automating the annotation process for the remaining frames without reducing annotation quality, retailers can significantly reduce operational costs. The automation of key-frame detection enables substantial time and effort savings in retail video labeling tasks, proving highly valuable for diverse retail applications such as shopper journey analysis, product interaction detection, and in-store security monitoring.
- Abstract(参考訳): 正確なビデオアノテーションは、顧客の行動分析、製品間相互作用の検出、店内活動認識など、現代の小売アプリケーションにおいて重要な役割を担っている。
しかし、従来のアノテーション手法は、人間のアノテーションによる手作業によるラベリングに大きく依存しており、非ロバストなフレーム選択を導入し、運用コストを増大させている。
小売分野におけるこれらの課題に対処するため,我々は,小売ビデオのキーフレーム識別を自動化し,製品や顧客の自動アノテーションを提供する,ディープラーニングベースのアプローチを提案する。
提案手法はディープニューラルネットワークを利用して,ビデオフレームを埋め込んだり,小売環境に適したオブジェクト検出に基づく手法を取り入れることで,識別的特徴を学習する。
実験の結果,従来の手法よりも優れた手法が示され,人間のアノテータラベリングに匹敵する精度が得られ,小売ビデオアノテーションの全体的な効率が向上した。
興味深いことに、我々の手法はビデオアノテーションにおける平均2倍のコスト削減につながる。
人間のアノテータが検出されたフレームの5%未満をビデオデータセットで検証/調整できるようにし、アノテーションの品質を低下させることなく残りのフレームのアノテーションプロセスを自動化することで、小売業者は運用コストを大幅に削減することができる。
キーフレーム検出の自動化により、小売ビデオラベリングタスクの大幅な時間と労力の削減が可能になり、買い物客の旅行分析、商品のインタラクション検出、店内セキュリティ監視など、多様な小売アプリケーションにとって非常に価値のあるものとなる。
関連論文リスト
- SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文 参考訳(メタデータ) (2025-06-09T15:15:15Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
多くのアプローチが、数発のアクション認識において顕著な進歩を導いている。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Retail store customer behavior analysis system: Design and
Implementation [2.215731214298625]
本稿では,顧客行動の数学的モデリング,効率的なディープラーニングに基づく行動分析,個人と集団の行動可視化という3つの主要な要素を含むフレームワークを提案する。
各モジュールとシステム全体が、小売店の実際の状況からのデータを使用して検証された。
論文 参考訳(メタデータ) (2023-09-05T06:26:57Z) - A Hybrid Statistical-Machine Learning Approach for Analysing Online
Customer Behavior: An Empirical Study [2.126171264016785]
我々は、中国最大のオンライン小売店であるJDにおいて、特定の商品カテゴリーに対する454,897人のオンライン顧客行動を分析するハイブリッド解釈モデルを開発した。
以上の結果から,顧客の製品選択が約束される納期に無関心であることが分かるが,この要因は顧客の注文量に大きな影響を及ぼす。
特定のディスカウントアプローチがより効果的である製品クラスを特定し、異なるディスカウントツールの使用を改善するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-12-01T19:37:29Z) - Detecting Disengagement in Virtual Learning as an Anomaly [4.706263507340607]
学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。
本稿では,仮想学習における解離を異常検出問題として定式化する。
我々は、時間畳み込みネットワークオートエンコーダ、長期記憶オートエンコーダなど、様々なオートエンコーダを設計する。
論文 参考訳(メタデータ) (2022-11-13T10:29:25Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - OPAM: Online Purchasing-behavior Analysis using Machine learning [0.8121462458089141]
本稿では,教師なし・教師なし・半教師付き学習手法を用いた顧客の購買行動分析システムを提案する。
提案システムは,顧客カテゴリやクラスタを特定するために,セッションおよびユーザジャーニーレベルの購買行動を分析する。
論文 参考訳(メタデータ) (2021-02-02T17:29:52Z) - Self-trained Deep Ordinal Regression for End-to-End Video Anomaly
Detection [114.9714355807607]
ビデオ異常検出に自己学習深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。
我々は,手動で正規/異常データをラベル付けすることなく,共同表現学習と異常スコアリングを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案した。
論文 参考訳(メタデータ) (2020-03-15T08:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。