Fugu-MT 論文翻訳(概要): A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction

論文の概要: A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction

arxiv url: http://arxiv.org/abs/2501.05936v1
Date: Fri, 10 Jan 2025 12:57:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.244507
Title: A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction
Title（参考訳）: 産業タスクモニタリングとエンゲージメント予測の強化のためのマルチモーダルデータセット
Authors: Naval Kishore Mehta, Arvind, Himanshu Kumar, Abeer Banerjee, Sumeet Saurav, Sanjay Singh,
Abstract要約: 現実的なアセンブリと分解タスクをキャプチャする新しいデータセットを提案する。データセットは、22セッションから収集されたマルチビューRGB、深さ、慣性測定ユニット(IMU)データを含み、未トリミングビデオの290分に相当する。提案手法は, 動的産業環境におけるオペレータのパフォーマンス監視のための堅牢なソリューションとして, エンゲージメント状態の認識精度を向上させる。
参考スコア（独自算出の注目度）: 5.73110247142357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting and interpreting operator actions, engagement, and object interactions in dynamic industrial workflows remains a significant challenge in human-robot collaboration research, especially within complex, real-world environments. Traditional unimodal methods often fall short of capturing the intricacies of these unstructured industrial settings. To address this gap, we present a novel Multimodal Industrial Activity Monitoring (MIAM) dataset that captures realistic assembly and disassembly tasks, facilitating the evaluation of key meta-tasks such as action localization, object interaction, and engagement prediction. The dataset comprises multi-view RGB, depth, and Inertial Measurement Unit (IMU) data collected from 22 sessions, amounting to 290 minutes of untrimmed video, annotated in detail for task performance and operator behavior. Its distinctiveness lies in the integration of multiple data modalities and its emphasis on real-world, untrimmed industrial workflows-key for advancing research in human-robot collaboration and operator monitoring. Additionally, we propose a multimodal network that fuses RGB frames, IMU data, and skeleton sequences to predict engagement levels during industrial tasks. Our approach improves the accuracy of recognizing engagement states, providing a robust solution for monitoring operator performance in dynamic industrial environments. The dataset and code can be accessed from https://github.com/navalkishoremehta95/MIAM/.
Abstract（参考訳）: 動的産業ワークフローにおける操作者行動、エンゲージメント、オブジェクトの相互作用の検出と解釈は、特に複雑で現実的な環境での人間とロボットのコラボレーション研究において重要な課題である。伝統的なユニモーダル法は、しばしばこれらの非構造的産業環境の複雑さをとらえるには不十分である。このギャップに対処するため、我々は、リアルなアセンブリと分解タスクをキャプチャし、アクションローカライゼーション、オブジェクトインタラクション、エンゲージメント予測といった重要なメタタスクの評価を容易にする、新しいマルチモーダル産業活動監視(MIAM)データセットを提案する。データセットは、22セッションから収集されたマルチビューRGB、深さ、慣性測定ユニット(IMU)データを含み、未トリミングビデオの290分に相当する。その特徴は、複数のデータモダリティの統合と、人間とロボットのコラボレーションとオペレーターのモニタリングの研究を前進させるための、現実の、トリミングされていない産業ワークフローに重点を置いている点にある。さらに、RGBフレーム、IMUデータ、スケルトンシーケンスを融合して産業作業中のエンゲージメントレベルを予測するマルチモーダルネットワークを提案する。提案手法は, 動的産業環境におけるオペレータのパフォーマンス監視のための堅牢なソリューションとして, エンゲージメント状態の認識精度を向上させる。データセットとコードはhttps://github.com/navalkishoremehta95/MIAM/からアクセスすることができる。

関連論文リスト

Towards an Introspective Dynamic Model of Globally Distributed Computing Infrastructures [27.473508984130728]
大規模な科学的コラボレーションはペタバイト単位のデータを生成し、ボリュームはすぐにエクタバイトに達すると期待されている。これらの計算とストレージの要求を管理するために、中央集権的なワークフローとデータ管理システムが実装されている。より効果的あるいはAI駆動のソリューションを採用する上で重要な障害は、迅速で信頼性の高いイントロスペクティブ・ダイナミック・モデルがないことである。
論文参考訳（メタデータ） (2025-06-24T12:42:36Z)
MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments [49.45034796115852]
手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
論文参考訳（メタデータ） (2025-03-04T13:00:52Z)
Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。 CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文参考訳（メタデータ） (2025-03-03T09:18:43Z)
MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition [0.27309692684728604]
MVIPはマルチモーダルおよびマルチビューアプリケーション指向の産業部品認識のための新しいデータセットである。 MVIPの主な目的は、下流タスクにおける様々な最先端メソッドの転送可能性の研究とプッシュである。
論文参考訳（メタデータ） (2025-02-21T13:22:29Z)
TimberVision: A Multi-Task Dataset and Framework for Log-Component Segmentation and Tracking in Autonomous Forestry Operations [2.0499240875881997]
51kのトランク成分を含む2k以上の注釈付きRGB画像からなるTimberVisionデータセットを紹介した。我々は、両方のタスクに対してモデルによって検出されたコンポーネントを統一されたトランク表現に融合する汎用フレームワークを導入する。私たちのソリューションは幅広いアプリケーションシナリオに適しており、他のセンサーのモダリティと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2025-01-13T14:30:01Z)
JEMA: A Joint Embedding Framework for Scalable Co-Learning with Multimodal Alignment [0.0]
JEMA(Joint Embedding with Multimodal Alignment)は、レーザー金属沈着(LMD)に適した新しいコラーニングフレームワークである。教師付きコントラスト学習と比較して,マルチモーダル・セッティングのパフォーマンスは8%向上し,ユニモーダル・セッティングは1%向上した。我々のフレームワークは、メタデータとマルチセンサデータを統合する基盤を築き、MDドメイン以降の様々な下流タスクを可能にする。
論文参考訳（メタデータ） (2024-10-31T14:42:26Z)
Unsupervised Multimodal Fusion of In-process Sensor Data for Advanced Manufacturing Process Monitoring [0.0]
本稿では,製造プロセスにおけるマルチモーダルセンサデータ融合に対する新しいアプローチを提案する。我々は、ラベル付きデータなしで異なるデータモダリティを相関付けるために、対照的な学習手法を活用している。本手法は,プロセス制御,異常検出,品質保証などの下流タスクを容易にする。
論文参考訳（メタデータ） (2024-10-29T21:52:04Z)
IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文参考訳（メタデータ） (2024-04-23T13:38:01Z)
Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文参考訳（メタデータ） (2023-09-25T08:56:22Z)
Weakly Supervised Multi-Task Representation Learning for Human Activity Analysis Using Wearables [2.398608007786179]
本稿では,データを複数の表現空間にマッピングする方法を学習する,弱教師付きマルチ出力シムネットワークを提案する。データサンプルの表現は、そのアスペクトで同じ意味を持つデータが互いに密接な位置にあるような空間に配置される。
論文参考訳（メタデータ） (2023-08-06T08:20:07Z)
MMRNet: Improving Reliability for Multimodal Object Detection and Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文参考訳（メタデータ） (2022-10-19T19:15:07Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文参考訳（メタデータ） (2020-05-14T22:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。