論文の概要: A Co-Training Semi-Supervised Framework Using Faster R-CNN and YOLO Networks for Object Detection in Densely Packed Retail Images
- arxiv url: http://arxiv.org/abs/2509.09750v1
- Date: Thu, 11 Sep 2025 13:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.879548
- Title: A Co-Training Semi-Supervised Framework Using Faster R-CNN and YOLO Networks for Object Detection in Densely Packed Retail Images
- Title(参考訳): より高速なR-CNNとYOLOネットワークを用いた複雑パッケージリテール画像のオブジェクト検出のための半監視フレームワーク
- Authors: Hossein Yazdanjouei, Arash Mansouri, Mohammad Shokouhifar,
- Abstract要約: 本研究では,密集した小売環境におけるオブジェクト検出のための半教師付き協調学習フレームワークを提案する。
このフレームワークは、正確なローカライゼーションのためにFaster R-CNNと、グローバルコンテキストのためのYOLOを組み合わせたものだ。
XGBoost、Random Forest、SVMのアンサンブルを採用し、多様な特徴表現を高い堅牢性に活用している。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes a semi-supervised co-training framework for object detection in densely packed retail environments, where limited labeled data and complex conditions pose major challenges. The framework combines Faster R-CNN (utilizing a ResNet backbone) for precise localization with YOLO (employing a Darknet backbone) for global context, enabling mutual pseudo-label exchange that improves accuracy in scenes with occlusion and overlapping objects. To strengthen classification, it employs an ensemble of XGBoost, Random Forest, and SVM, utilizing diverse feature representations for higher robustness. Hyperparameters are optimized using a metaheuristic-driven algorithm, enhancing precision and efficiency across models. By minimizing reliance on manual labeling, the approach reduces annotation costs and adapts effectively to frequent product and layout changes common in retail. Experiments on the SKU-110k dataset demonstrate strong performance, highlighting the scalability and practicality of the proposed framework for real-world retail applications such as automated inventory tracking, product monitoring, and checkout systems.
- Abstract(参考訳): 本研究では,限られたラベル付きデータと複雑な条件が大きな課題となる密集した小売環境において,オブジェクト検出のための半教師付き協調学習フレームワークを提案する。
このフレームワークは、正確なローカライズのためのFaster R-CNN(ResNetのバックボーンを利用する)とグローバルコンテキストのためのYOLO(Darknetのバックボーンをインストールする)を組み合わせることで、オクルージョンとオーバーラップしたオブジェクトのシーンでの精度を向上させる相互の擬似ラベル交換を可能にする。
分類を強化するために、XGBoost、Random Forest、SVMのアンサンブルを使用し、多様な特徴表現を高い堅牢性のために利用している。
ハイパーパラメータはメタヒューリスティック駆動アルゴリズムを用いて最適化され、モデル間の精度と効率を向上させる。
手動ラベリングへの依存を最小限にすることで、アノテーションのコストを削減し、小売業に共通する頻繁な製品やレイアウトの変更に効果的に適応する。
SKU-110kデータセットの実験は、在庫の自動追跡、製品監視、チェックアウトシステムなど、現実の小売アプリケーションのための提案されたフレームワークのスケーラビリティと実用性を強調し、強力なパフォーマンスを示している。
関連論文リスト
- Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [12.838872442435527]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - Distributionally Robust Federated Learning with Client Drift Minimization [35.08453461129848]
textitDRDMは分散的に堅牢な最適化フレームワークであり、動的正規化によりクライアントのドリフトを緩和する。
textitDRDMは、最悪のクライアントのパフォーマンスを最大化することを目的とした、min-max最適化問題としてトレーニングをフレーム化している。
実験の結果,textitDRDMは通信ラウンドを減らしながら最悪のテスト精度を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-05-21T11:05:56Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。