論文の概要: Challenges of the Creation of a Dataset for Vision Based Human Hand
Action Recognition in Industrial Assembly
- arxiv url: http://arxiv.org/abs/2303.03716v1
- Date: Tue, 7 Mar 2023 07:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:09:18.963637
- Title: Challenges of the Creation of a Dataset for Vision Based Human Hand
Action Recognition in Industrial Assembly
- Title(参考訳): 産業会議における視覚に基づくヒューマンハンドアクション認識のためのデータセット作成の課題
- Authors: Fabian Sturm, Elke Hergenroether, Julian Reinhardt, Petar Smilevski
Vojnovikj, Melanie Siegel
- Abstract要約: このデータセットは、基本バージョンで459,180の画像を持つ12のクラスと、空間拡張後の2,295,900の画像からなる。
平均以上の期間を持ち、工業用組立ラインの技術的および法的要件を満たす。
実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the Industrial Hand Action Dataset V1, an industrial
assembly dataset consisting of 12 classes with 459,180 images in the basic
version and 2,295,900 images after spatial augmentation. Compared to other
freely available datasets tested, it has an above-average duration and, in
addition, meets the technical and legal requirements for industrial assembly
lines. Furthermore, the dataset contains occlusions, hand-object interaction,
and various fine-grained human hand actions for industrial assembly tasks that
were not found in combination in examined datasets. The recorded ground truth
assembly classes were selected after extensive observation of real-world use
cases. A Gated Transformer Network, a state-of-the-art model from the
transformer domain was adapted, and proved with a test accuracy of 86.25%
before hyperparameter tuning by 18,269,959 trainable parameters, that it is
possible to train sequential deep learning models with this dataset.
- Abstract(参考訳): 本研究は,産業用ハンドアクションデータセットV1を用いて,空間拡張後の459,180画像と2,295,900画像からなる産業用組立データセットを提案する。
他の無償で利用可能なデータセットと比較すると、平均以上の期間を持ち、産業用組立ラインの技術的および法的要件を満たす。
さらに、このデータセットは、検査されたデータセットの組合せでは見つからなかった産業組立タスクに対して、オクルージョン、ハンド・オブジェクト相互作用、および様々な細粒度のヒューマン・ハンドアクションを含む。
実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。
トランスフォーマードメインからの最先端モデルであるゲート型トランスフォーマーネットワークを採用し、18,269,959のトレーニング可能なパラメータによるハイパーパラメータチューニングの前に86.25%の精度でテスト精度を証明し、このデータセットでシーケンシャルなディープラーニングモデルをトレーニングできることを示した。
関連論文リスト
- SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale
SAR Object Detection [83.21028626585986]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Investigation of the Impact of Synthetic Training Data in the Industrial
Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。
評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T18:33:27Z) - Analog and Multi-modal Manufacturing Datasets Acquired on the Future
Factories Platform [0.0]
本稿では,2つの業界グレードのデータセットについて述べる。
2023年12月11日と12日にサウスカロライナ大学のFuture Factories Labで収集された。
論文 参考訳(メタデータ) (2024-01-28T02:26:58Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Object Detection Using Sim2Real Domain Randomization for Robotic
Applications [0.0]
オブジェクト検出のための領域ランダム化に基づくSIM2real Transfer Learning法を提案する。
最先端の畳み込みニューラルネットワークであるYOLOv4は、さまざまな種類の産業オブジェクトを検出するために訓練されている。
我々のソリューションは、トレーニングに1つの実像のみを使用することで、類似したオブジェクトのクラスを確実に区別できるため、産業ニーズにマッチする。
論文 参考訳(メタデータ) (2022-08-08T14:16:45Z) - Grasp Pre-shape Selection by Synthetic Training: Eye-in-hand Shared
Control on the Hannes Prosthesis [6.517935794312337]
RGB 配列から手形前分類を行うための目印学習方式を提案する。
我々は、人間の腕の軌跡のモデルを用いて、眼球設定の特異性に取り組む。
論文 参考訳(メタデータ) (2022-03-18T09:16:48Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。