論文の概要: Self-supervised cross-modality learning for uncertainty-aware object detection and recognition in applications which lack pre-labelled training data
- arxiv url: http://arxiv.org/abs/2411.03082v1
- Date: Tue, 05 Nov 2024 13:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:18.423059
- Title: Self-supervised cross-modality learning for uncertainty-aware object detection and recognition in applications which lack pre-labelled training data
- Title(参考訳): 事前学習データを持たないアプリケーションにおける不確実性を考慮した物体検出・認識のための自己教師型クロスモダリティ学習
- Authors: Irum Mehboob, Li Sun, Alireza Astegarpanah, Rustam Stolkin,
- Abstract要約: 我々は、不確実性を認識したディープニューラルネットワークが2次元RGB画像中の物体を検出し、認識し、ローカライズするためにどのように訓練されるかを示す。
本手法は,ラベル付きデータセットが一般に利用できない,多くの重要な産業タスクに適用可能である。
- 参考スコア(独自算出の注目度): 6.892494758401737
- License:
- Abstract: This paper shows how an uncertainty-aware, deep neural network can be trained to detect, recognise and localise objects in 2D RGB images, in applications lacking annotated train-ng datasets. We propose a self-supervising teacher-student pipeline, in which a relatively simple teacher classifier, trained with only a few labelled 2D thumbnails, automatically processes a larger body of unlabelled RGB-D data to teach a student network based on a modified YOLOv3 architecture. Firstly, 3D object detection with back projection is used to automatically extract and teach 2D detection and localisation information to the student network. Secondly, a weakly supervised 2D thumbnail classifier, with minimal training on a small number of hand-labelled images, is used to teach object category recognition. Thirdly, we use a Gaussian Process GP to encode and teach a robust uncertainty estimation functionality, so that the student can output confidence scores with each categorization. The resulting student significantly outperforms the same YOLO architecture trained directly on the same amount of labelled data. Our GP-based approach yields robust and meaningful uncertainty estimations for complex industrial object classifications. The end-to-end network is also capable of real-time processing, needed for robotics applications. Our method can be applied to many important industrial tasks, where labelled datasets are typically unavailable. In this paper, we demonstrate an example of detection, localisation, and object category recognition of nuclear mixed-waste materials in highly cluttered and unstructured scenes. This is critical for robotic sorting and handling of legacy nuclear waste, which poses complex environmental remediation challenges in many nuclearised nations.
- Abstract(参考訳): 本稿では、2次元RGB画像中の物体を検出し、認識し、ローカライズするために、不確実性を認識したディープニューラルネットワークをどのように訓練するかを示す。
比較的単純な教師分類器を数個のラベル付き2Dサムネイルで訓練し、学習者のネットワークを改良したYOLOv3アーキテクチャに基づいて学習する自己監督型教師学習パイプラインを提案する。
まず、バックプロジェクションによる3Dオブジェクト検出を用いて、学生ネットワークに2D検出およびローカライゼーション情報を自動的に抽出し、教える。
第二に、弱教師付き2Dサムネイル分類器は、少数のハンドラベリング画像に対して最小限の訓練を施し、オブジェクトカテゴリ認識を教えるために使用される。
第3に、ガウス過程GPを用いて、頑健な不確実性推定機能を符号化し、教えることで、各分類の信頼性スコアを出力する。
結果として得られた学生は、同じラベル付きデータに基づいてトレーニングされた同じYOLOアーキテクチャを著しく上回る。
我々のGPベースのアプローチは、複雑な産業対象分類に対して頑健で有意義な不確実性推定をもたらす。
エンドツーエンドネットワークは、ロボット工学アプリケーションに必要なリアルタイム処理も可能である。
本手法は,ラベル付きデータセットが一般に利用できない,多くの重要な産業タスクに適用可能である。
本稿では,高度に乱雑で非構造的な場面における核混入物質の検出,局所化,および対象カテゴリー認識の例を示す。
これは、旧来の核廃棄物をロボットで選別し、処理するために重要であり、多くの核国で複雑な環境浄化の課題を引き起こす。
関連論文リスト
- Learning with Noisy Ground Truth: From 2D Classification to 3D Reconstruction [13.314778587751588]
本稿では,LNGT LNGTの分析を機械学習タスクの文脈で統一する形式的定義を提案する。
我々は,暗記効果の詳細な分析と今後の研究機会に関する洞察に富んだ議論を行う。
論文 参考訳(メタデータ) (2024-06-23T02:21:48Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Lifelong 3D Object Recognition and Grasp Synthesis Using Dual Memory
Recurrent Self-Organization Networks [0.0]
人間は、これまで得られた知識を忘れずに、生涯にわたって新しい物体を認識し、操作することを学ぶ。
ほとんどの従来のディープニューラルネットワークでは、破滅的な忘れの問題のため、これは不可能である。
本稿では,物体認識と把握を同時に行うために,デュアルメモリリカレントニューラルネットワークとオートエンコーダを組み合わせたハイブリッドモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-23T11:14:13Z) - 3D Spatial Recognition without Spatially Labeled 3D [127.6254240158249]
Weakly-supervised framework for Point cloud Recognitionを紹介する。
We show that WyPR can detected and segment objects in point cloud data without access any space labels at training time。
論文 参考訳(メタデータ) (2021-05-13T17:58:07Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Building Robust Industrial Applicable Object Detection Models Using
Transfer Learning and Single Pass Deep Learning Architectures [1.1816942730023883]
我々は、オブジェクト検出のタスク専用の深層畳み込みニューラルネットワークが、産業指向のオブジェクト検出パイプラインをどのように改善するかを探求する。
地域提案や分類,確率推定をひとつの実行で統合したディープラーニングアーキテクチャを用いて,リアルタイムのパフォーマンス向上を目指す。
本稿では,これらのアルゴリズムを2つの産業関連アプリケーションに適用し,その1つはアイトラッキングデータにおけるプロモーションボードの検出と,もう1つは拡張現実広告のための倉庫製品のパッケージの検出と認識である。
論文 参考訳(メタデータ) (2020-07-09T09:50:45Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。