論文の概要: Challenges of the Creation of a Dataset for Vision Based Human Hand
Action Recognition in Industrial Assembly
- arxiv url: http://arxiv.org/abs/2303.03716v1
- Date: Tue, 7 Mar 2023 07:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:09:18.963637
- Title: Challenges of the Creation of a Dataset for Vision Based Human Hand
Action Recognition in Industrial Assembly
- Title(参考訳): 産業会議における視覚に基づくヒューマンハンドアクション認識のためのデータセット作成の課題
- Authors: Fabian Sturm, Elke Hergenroether, Julian Reinhardt, Petar Smilevski
Vojnovikj, Melanie Siegel
- Abstract要約: このデータセットは、基本バージョンで459,180の画像を持つ12のクラスと、空間拡張後の2,295,900の画像からなる。
平均以上の期間を持ち、工業用組立ラインの技術的および法的要件を満たす。
実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the Industrial Hand Action Dataset V1, an industrial
assembly dataset consisting of 12 classes with 459,180 images in the basic
version and 2,295,900 images after spatial augmentation. Compared to other
freely available datasets tested, it has an above-average duration and, in
addition, meets the technical and legal requirements for industrial assembly
lines. Furthermore, the dataset contains occlusions, hand-object interaction,
and various fine-grained human hand actions for industrial assembly tasks that
were not found in combination in examined datasets. The recorded ground truth
assembly classes were selected after extensive observation of real-world use
cases. A Gated Transformer Network, a state-of-the-art model from the
transformer domain was adapted, and proved with a test accuracy of 86.25%
before hyperparameter tuning by 18,269,959 trainable parameters, that it is
possible to train sequential deep learning models with this dataset.
- Abstract(参考訳): 本研究は,産業用ハンドアクションデータセットV1を用いて,空間拡張後の459,180画像と2,295,900画像からなる産業用組立データセットを提案する。
他の無償で利用可能なデータセットと比較すると、平均以上の期間を持ち、産業用組立ラインの技術的および法的要件を満たす。
さらに、このデータセットは、検査されたデータセットの組合せでは見つからなかった産業組立タスクに対して、オクルージョン、ハンド・オブジェクト相互作用、および様々な細粒度のヒューマン・ハンドアクションを含む。
実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。
トランスフォーマードメインからの最先端モデルであるゲート型トランスフォーマーネットワークを採用し、18,269,959のトレーニング可能なパラメータによるハイパーパラメータチューニングの前に86.25%の精度でテスト精度を証明し、このデータセットでシーケンシャルなディープラーニングモデルをトレーニングできることを示した。
関連論文リスト
- DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - Supervised Anomaly Detection for Complex Industrial Images [4.890533180388991]
5000枚の画像からなる新規な実世界の産業データセットについて述べる。
また、(2)ベースの異常検出器(SegAD)についても紹介する。
SegADは、ローカル統計を計算するために、異常マップとセグメンテーションマップを使用する。
VADおよびVisAデータセット(+0.4%AUROC)におけるSegADの現状
論文 参考訳(メタデータ) (2024-05-08T10:47:28Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z) - Towards Sim-to-Real Industrial Parts Classification with Synthetic Dataset [6.481744951262474]
我々は、Sim-to-Realチャレンジの予備的なテストベッドとして機能する合成データセットを導入する。
6つの産業用ユースケースのうち17のオブジェクトが含まれており、その中には独立した部品や組み立て部品が含まれる。
すべてのサンプル画像は、ランダムな背景と、ドメインのランダム化の重要性を評価する後処理を伴わない。
論文 参考訳(メタデータ) (2024-04-12T19:04:59Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Investigation of the Impact of Synthetic Training Data in the Industrial
Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。
評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T18:33:27Z) - Analog and Multi-modal Manufacturing Datasets Acquired on the Future
Factories Platform [0.0]
本稿では,2つの業界グレードのデータセットについて述べる。
2023年12月11日と12日にサウスカロライナ大学のFuture Factories Labで収集された。
論文 参考訳(メタデータ) (2024-01-28T02:26:58Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Object Detection Using Sim2Real Domain Randomization for Robotic
Applications [0.0]
オブジェクト検出のための領域ランダム化に基づくSIM2real Transfer Learning法を提案する。
最先端の畳み込みニューラルネットワークであるYOLOv4は、さまざまな種類の産業オブジェクトを検出するために訓練されている。
我々のソリューションは、トレーニングに1つの実像のみを使用することで、類似したオブジェクトのクラスを確実に区別できるため、産業ニーズにマッチする。
論文 参考訳(メタデータ) (2022-08-08T14:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。