論文の概要: Challenges of the Creation of a Dataset for Vision Based Human Hand
Action Recognition in Industrial Assembly
- arxiv url: http://arxiv.org/abs/2303.03716v1
- Date: Tue, 7 Mar 2023 07:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:09:18.963637
- Title: Challenges of the Creation of a Dataset for Vision Based Human Hand
Action Recognition in Industrial Assembly
- Title(参考訳): 産業会議における視覚に基づくヒューマンハンドアクション認識のためのデータセット作成の課題
- Authors: Fabian Sturm, Elke Hergenroether, Julian Reinhardt, Petar Smilevski
Vojnovikj, Melanie Siegel
- Abstract要約: このデータセットは、基本バージョンで459,180の画像を持つ12のクラスと、空間拡張後の2,295,900の画像からなる。
平均以上の期間を持ち、工業用組立ラインの技術的および法的要件を満たす。
実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the Industrial Hand Action Dataset V1, an industrial
assembly dataset consisting of 12 classes with 459,180 images in the basic
version and 2,295,900 images after spatial augmentation. Compared to other
freely available datasets tested, it has an above-average duration and, in
addition, meets the technical and legal requirements for industrial assembly
lines. Furthermore, the dataset contains occlusions, hand-object interaction,
and various fine-grained human hand actions for industrial assembly tasks that
were not found in combination in examined datasets. The recorded ground truth
assembly classes were selected after extensive observation of real-world use
cases. A Gated Transformer Network, a state-of-the-art model from the
transformer domain was adapted, and proved with a test accuracy of 86.25%
before hyperparameter tuning by 18,269,959 trainable parameters, that it is
possible to train sequential deep learning models with this dataset.
- Abstract(参考訳): 本研究は,産業用ハンドアクションデータセットV1を用いて,空間拡張後の459,180画像と2,295,900画像からなる産業用組立データセットを提案する。
他の無償で利用可能なデータセットと比較すると、平均以上の期間を持ち、産業用組立ラインの技術的および法的要件を満たす。
さらに、このデータセットは、検査されたデータセットの組合せでは見つからなかった産業組立タスクに対して、オクルージョン、ハンド・オブジェクト相互作用、および様々な細粒度のヒューマン・ハンドアクションを含む。
実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。
トランスフォーマードメインからの最先端モデルであるゲート型トランスフォーマーネットワークを採用し、18,269,959のトレーニング可能なパラメータによるハイパーパラメータチューニングの前に86.25%の精度でテスト精度を証明し、このデータセットでシーケンシャルなディープラーニングモデルをトレーニングできることを示した。
関連論文リスト
- The Collection of a Human Robot Collaboration Dataset for Cooperative Assembly in Glovebox Environments [2.30069810310356]
産業4.0は、製造プロセスの近代化のための変革的ソリューションとしてAIを導入した。その後継である産業5.0は、AI駆動ソリューションを導くために、人間を協力者と専門家として想定している。
新しい技術は、共同組み立て中にシーン、特に手の位置を安全かつリアルタイムに識別できるアルゴリズムを必要とする。
このデータセットは、産業的な人間のコラボレーションシナリオにおいて、手動と手袋のセグメンテーションに向けたアプリケーションを構築する上で、1200の難しい例を提供します。
論文 参考訳(メタデータ) (2024-07-19T19:56:53Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - Supervised Anomaly Detection for Complex Industrial Images [4.890533180388991]
5000枚の画像からなる新規な実世界の産業データセットについて述べる。
また、(2)ベースの異常検出器(SegAD)についても紹介する。
SegADは、ローカル統計を計算するために、異常マップとセグメンテーションマップを使用する。
VADおよびVisAデータセット(+0.4%AUROC)におけるSegADの現状
論文 参考訳(メタデータ) (2024-05-08T10:47:28Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z) - Towards Sim-to-Real Industrial Parts Classification with Synthetic Dataset [6.481744951262474]
我々は、Sim-to-Realチャレンジの予備的なテストベッドとして機能する合成データセットを導入する。
6つの産業用ユースケースのうち17のオブジェクトが含まれており、その中には独立した部品や組み立て部品が含まれる。
すべてのサンプル画像は、ランダムな背景と、ドメインのランダム化の重要性を評価する後処理を伴わない。
論文 参考訳(メタデータ) (2024-04-12T19:04:59Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Investigation of the Impact of Synthetic Training Data in the Industrial
Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。
評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T18:33:27Z) - Analog and Multi-modal Manufacturing Datasets Acquired on the Future
Factories Platform [0.0]
本稿では,2つの業界グレードのデータセットについて述べる。
2023年12月11日と12日にサウスカロライナ大学のFuture Factories Labで収集された。
論文 参考訳(メタデータ) (2024-01-28T02:26:58Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。