論文の概要: Fast Training Data Acquisition for Object Detection and Segmentation using Black Screen Luminance Keying
- arxiv url: http://arxiv.org/abs/2405.07653v1
- Date: Mon, 13 May 2024 11:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:55:08.838112
- Title: Fast Training Data Acquisition for Object Detection and Segmentation using Black Screen Luminance Keying
- Title(参考訳): ブラックスクリーン輝度キーを用いた物体検出・セグメンテーションのための高速学習データ取得
- Authors: Thomas Pöllabauer, Volker Knauthe, André Boller, Arjan Kuijper, Dieter Fellner,
- Abstract要約: ディープニューラルネットワーク(DNN)は、優れたパフォーマンスを得るために大量の注釈付きトレーニングデータを必要とする。
必要なトレーニングデータを取得するための、迅速で直接的なアプローチは、ディープラーニングの採用を、最小のアプリケーションでも可能にします。
私たちの研究は、最先端ネットワークのトレーニングを数分で開始できる、高精度なトレーニングデータ取得を実証しています。
- 参考スコア(独自算出の注目度): 4.491665410263268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) require large amounts of annotated training data for a good performance. Often this data is generated using manual labeling (error-prone and time-consuming) or rendering (requiring geometry and material information). Both approaches make it difficult or uneconomic to apply them to many small-scale applications. A fast and straightforward approach of acquiring the necessary training data would allow the adoption of deep learning to even the smallest of applications. Chroma keying is the process of replacing a color (usually blue or green) with another background. Instead of chroma keying, we propose luminance keying for fast and straightforward training image acquisition. We deploy a black screen with high light absorption (99.99\%) to record roughly 1-minute long videos of our target objects, circumventing typical problems of chroma keying, such as color bleeding or color overlap between background color and object color. Next we automatically mask our objects using simple brightness thresholding, saving the need for manual annotation. Finally, we automatically place the objects on random backgrounds and train a 2D object detector. We do extensive evaluation of the performance on the widely-used YCB-V object set and compare favourably to other conventional techniques such as rendering, without needing 3D meshes, materials or any other information of our target objects and in a fraction of the time needed for other approaches. Our work demonstrates highly accurate training data acquisition allowing to start training state-of-the-art networks within minutes.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、優れたパフォーマンスを得るために大量の注釈付きトレーニングデータを必要とする。
多くの場合、このデータは手動のラベリング(エラーや時間を要する)やレンダリング(幾何学や材料情報を必要とする)を使って生成される。
どちらのアプローチも、それらを多くの小規模アプリケーションに適用することは困難または非経済的である。
必要なトレーニングデータを取得するための、迅速で直接的なアプローチは、ディープラーニングの採用を、最小のアプリケーションでも可能にします。
クロマキー(英: Chroma keying)とは、色(通常青または緑)を別の背景に置き換える過程である。
色覚キーリングの代わりに,高速かつ簡単なトレーニング画像取得のための輝度キーニングを提案する。
光吸収率99.99\%の黒画面を配置し,対象物体の約1分間の映像を撮影し,背景色と対象色との色の重なりなど,クロマキーの典型的な問題を回避する。
次に、単純な輝度しきい値を使用してオブジェクトを自動的にマスキングし、手動のアノテーションを不要にします。
最後に、オブジェクトをランダムな背景に自動的に配置し、2Dオブジェクト検出器を訓練する。
広範に使用されているYCB-Vオブジェクトセットの性能を広範囲に評価し、3Dメッシュや材料その他の対象オブジェクトの情報を必要とせず、また、他のアプローチに必要な時間のごく一部でレンダリングなどの他の手法と比較した。
私たちの研究は、最先端ネットワークのトレーニングを数分で開始できる、高精度なトレーニングデータ取得を実証しています。
関連論文リスト
- YCB-LUMA: YCB Object Dataset with Luminance Keying for Object Localization [0.0]
画像中のターゲットオブジェクトのローカライズは、コンピュータビジョンにおいて重要な課題である。
我々は、YCBスーパーセットの残りのオブジェクトを記録することで、共通YCB-V集合に輝度キーを付加する以前の作業を拡張した。
追加のさまざまなオブジェクトは、輝度キー付けの有用性を示し、新しい2次元オブジェクト検出とセグメンテーションアルゴリズムに対するアプローチの適用性をテストするために使用される。
論文 参考訳(メタデータ) (2024-11-20T09:32:22Z) - Pre-Training LiDAR-Based 3D Object Detectors Through Colorization [65.03659880456048]
我々は,データとラベルのギャップを埋めるために,革新的な事前学習手法であるグラウンドドポイントカラー化(GPC)を導入する。
GPCは、LiDAR点雲を色付けし、価値あるセマンティック・キューを装備するモデルを教えている。
KITTIとデータセットの実験結果は、GPCの顕著な効果を示している。
論文 参考訳(メタデータ) (2023-10-23T06:00:24Z) - Learning Higher-order Object Interactions for Keypoint-based Video
Understanding [15.52736059969859]
本稿では、キーポイントデータのみをトラッキングとアクション認識に使用するアクションローカライズ手法であるKeyNetについて述べる。
KeyNetは、人間のアクションをわずか5FPSで追跡し分類することができます。
論文 参考訳(メタデータ) (2023-05-16T15:30:33Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z) - Visual Descriptor Learning from Monocular Video [25.082587246288995]
完全畳み込みネットワークを訓練することにより,RGB画像上の高密度対応性を推定する手法を提案する。
提案手法は,光学的流れから相対的なラベリングを推定するコントラッシブ・ロスを用いてRGBビデオから学習する。
同じバックグラウンドを持つテストデータに対して、メソッドがうまく機能するだけでなく、新しいバックグラウンドを持つ状況にも一般化する。
論文 参考訳(メタデータ) (2020-04-15T11:19:57Z) - Self-Supervised Object-in-Gripper Segmentation from Robotic Motions [27.915309216800125]
ロボットが把握した未知の物体をセグメント化するための頑健な解法を提案する。
我々はRGBビデオシーケンスにおける動きと時間的手がかりを利用する。
当社のアプローチは、カメラキャリブレーションや3Dモデル、あるいは潜在的に不完全な深度データとは独立して、完全に自己管理されている。
論文 参考訳(メタデータ) (2020-02-11T15:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。