論文の概要: A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction
- arxiv url: http://arxiv.org/abs/2501.05936v1
- Date: Fri, 10 Jan 2025 12:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:22.722450
- Title: A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction
- Title(参考訳): 産業タスクモニタリングとエンゲージメント予測の強化のためのマルチモーダルデータセット
- Authors: Naval Kishore Mehta, Arvind, Himanshu Kumar, Abeer Banerjee, Sumeet Saurav, Sanjay Singh,
- Abstract要約: 現実的なアセンブリと分解タスクをキャプチャする新しいデータセットを提案する。
データセットは、22セッションから収集されたマルチビューRGB、深さ、慣性測定ユニット(IMU)データを含み、未トリミングビデオの290分に相当する。
提案手法は, 動的産業環境におけるオペレータのパフォーマンス監視のための堅牢なソリューションとして, エンゲージメント状態の認識精度を向上させる。
- 参考スコア(独自算出の注目度): 5.73110247142357
- License:
- Abstract: Detecting and interpreting operator actions, engagement, and object interactions in dynamic industrial workflows remains a significant challenge in human-robot collaboration research, especially within complex, real-world environments. Traditional unimodal methods often fall short of capturing the intricacies of these unstructured industrial settings. To address this gap, we present a novel Multimodal Industrial Activity Monitoring (MIAM) dataset that captures realistic assembly and disassembly tasks, facilitating the evaluation of key meta-tasks such as action localization, object interaction, and engagement prediction. The dataset comprises multi-view RGB, depth, and Inertial Measurement Unit (IMU) data collected from 22 sessions, amounting to 290 minutes of untrimmed video, annotated in detail for task performance and operator behavior. Its distinctiveness lies in the integration of multiple data modalities and its emphasis on real-world, untrimmed industrial workflows-key for advancing research in human-robot collaboration and operator monitoring. Additionally, we propose a multimodal network that fuses RGB frames, IMU data, and skeleton sequences to predict engagement levels during industrial tasks. Our approach improves the accuracy of recognizing engagement states, providing a robust solution for monitoring operator performance in dynamic industrial environments. The dataset and code can be accessed from https://github.com/navalkishoremehta95/MIAM/.
- Abstract(参考訳): 動的産業ワークフローにおける操作者行動、エンゲージメント、オブジェクトの相互作用の検出と解釈は、特に複雑で現実的な環境での人間とロボットのコラボレーション研究において重要な課題である。
伝統的なユニモーダル法は、しばしばこれらの非構造的産業環境の複雑さをとらえるには不十分である。
このギャップに対処するため、我々は、リアルなアセンブリと分解タスクをキャプチャし、アクションローカライゼーション、オブジェクトインタラクション、エンゲージメント予測といった重要なメタタスクの評価を容易にする、新しいマルチモーダル産業活動監視(MIAM)データセットを提案する。
データセットは、22セッションから収集されたマルチビューRGB、深さ、慣性測定ユニット(IMU)データを含み、未トリミングビデオの290分に相当する。
その特徴は、複数のデータモダリティの統合と、人間とロボットのコラボレーションとオペレーターのモニタリングの研究を前進させるための、現実の、トリミングされていない産業ワークフローに重点を置いている点にある。
さらに、RGBフレーム、IMUデータ、スケルトンシーケンスを融合して産業作業中のエンゲージメントレベルを予測するマルチモーダルネットワークを提案する。
提案手法は, 動的産業環境におけるオペレータのパフォーマンス監視のための堅牢なソリューションとして, エンゲージメント状態の認識精度を向上させる。
データセットとコードはhttps://github.com/navalkishoremehta95/MIAM/からアクセスすることができる。
関連論文リスト
- TimberVision: A Multi-Task Dataset and Framework for Log-Component Segmentation and Tracking in Autonomous Forestry Operations [2.0499240875881997]
51kのトランク成分を含む2k以上の注釈付きRGB画像からなるTimberVisionデータセットを紹介した。
我々は、両方のタスクに対してモデルによって検出されたコンポーネントを統一されたトランク表現に融合する汎用フレームワークを導入する。
私たちのソリューションは幅広いアプリケーションシナリオに適しており、他のセンサーのモダリティと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2025-01-13T14:30:01Z) - JEMA: A Joint Embedding Framework for Scalable Co-Learning with Multimodal Alignment [0.0]
JEMA(Joint Embedding with Multimodal Alignment)は、レーザー金属沈着(LMD)に適した新しいコラーニングフレームワークである。
教師付きコントラスト学習と比較して,マルチモーダル・セッティングのパフォーマンスは8%向上し,ユニモーダル・セッティングは1%向上した。
我々のフレームワークは、メタデータとマルチセンサデータを統合する基盤を築き、MDドメイン以降の様々な下流タスクを可能にする。
論文 参考訳(メタデータ) (2024-10-31T14:42:26Z) - Unsupervised Multimodal Fusion of In-process Sensor Data for Advanced Manufacturing Process Monitoring [0.0]
本稿では,製造プロセスにおけるマルチモーダルセンサデータ融合に対する新しいアプローチを提案する。
我々は、ラベル付きデータなしで異なるデータモダリティを相関付けるために、対照的な学習手法を活用している。
本手法は,プロセス制御,異常検出,品質保証などの下流タスクを容易にする。
論文 参考訳(メタデータ) (2024-10-29T21:52:04Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Weakly Supervised Multi-Task Representation Learning for Human Activity
Analysis Using Wearables [2.398608007786179]
本稿では,データを複数の表現空間にマッピングする方法を学習する,弱教師付きマルチ出力シムネットワークを提案する。
データサンプルの表現は、そのアスペクトで同じ意味を持つデータが互いに密接な位置にあるような空間に配置される。
論文 参考訳(メタデータ) (2023-08-06T08:20:07Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。