論文の概要: Signals vs. Videos: Advancing Motion Intention Recognition for Human-Robot Collaboration in Construction
- arxiv url: http://arxiv.org/abs/2509.07990v1
- Date: Mon, 25 Aug 2025 14:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.934186
- Title: Signals vs. Videos: Advancing Motion Intention Recognition for Human-Robot Collaboration in Construction
- Title(参考訳): 信号対ビデオ:建設における人間-ロボット協調のための動き意図認識の促進
- Authors: Charan Gajjala Chenchu, Kinam Kim, Gao Lu, Zia Ud Din,
- Abstract要約: 本研究は,ドライウォール設置作業の初期段階における作業者の動作意図の認識において,深層学習を活用して2つの異なるモーダル性を評価する。
The Convolutional Neural Network - Long Short-Term Memory (CNN-LSTM) model using surface Electromyography (sEMG) data to a accuracy of 87%。
事前訓練したビデオスウィン変換器と、転送学習を併用した動画シーケンスを入力として、動きの意図を認識し、精度が94%に達した。
- 参考スコア(独自算出の注目度): 1.108292291257035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-robot collaboration (HRC) in the construction industry depends on precise and prompt recognition of human motion intentions and actions by robots to maximize safety and workflow efficiency. There is a research gap in comparing data modalities, specifically signals and videos, for motion intention recognition. To address this, the study leverages deep learning to assess two different modalities in recognizing workers' motion intention at the early stage of movement in drywall installation tasks. The Convolutional Neural Network - Long Short-Term Memory (CNN-LSTM) model utilizing surface electromyography (sEMG) data achieved an accuracy of around 87% with an average time of 0.04 seconds to perform prediction on a sample input. Meanwhile, the pre-trained Video Swin Transformer combined with transfer learning harnessed video sequences as input to recognize motion intention and attained an accuracy of 94% but with a longer average time of 0.15 seconds for a similar prediction. This study emphasizes the unique strengths and trade-offs of both data formats, directing their systematic deployments to enhance HRC in real-world construction projects.
- Abstract(参考訳): 建設業におけるヒューマンロボットコラボレーション(HRC)は、安全とワークフローの効率を最大化するために、ロボットによる人間の動きの意図と行動の正確かつ迅速な認識に依存している。
データモダリティ(特に信号とビデオ)を比較して、動きの意図を認識することには、研究のギャップがある。
本研究は, 深層学習を活用して, ドライウォール設置作業の初期段階における作業者の動作意図の認識における2つの異なるモダリティを評価する。
The Convolutional Neural Network - Long Short-Term Memory (CNN-LSTM) model using surface electromyography (sEMG) data to a accuracy of 87% with a average time of 0.04 seconds to performed a sample input。
一方、事前訓練されたビデオスウィン変換器は、動画シーケンスを入力として使用して動きの意図を認識し、94%の精度を達成したが、同様の予測には平均時間0.15秒を要した。
本研究は,両データ形式の特徴的強みとトレードオフを強調し,実世界の建設プロジェクトにおけるHRCの高度化に向けて,その体系的展開を指示する。
関連論文リスト
- Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Benchmarking Adaptive Intelligence and Computer Vision on Human-Robot Collaboration [0.0]
ヒューマンロボットコラボレーション(HRC)は、センサー、デジタル双生児、協調ロボット(コボット)、意図認識モデルを用いて、効率的な製造プロセスを持つ産業4.0において不可欠である。
本稿では,適応知能と自己ラベルを統合して,HRCシステムにおける意図認識のレジリエンスを向上させることにより,概念の漂流に対処する。
論文 参考訳(メタデータ) (2024-09-30T01:25:48Z) - AdvMT: Adversarial Motion Transformer for Long-term Human Motion
Prediction [2.837740438355204]
本稿では,AdvMT(Adversarial Motion Transformer)について述べる。
逆行訓練では,予測の不要な成果物を効果的に削減し,より現実的で流動的な人間の動作の学習を確実にする。
論文 参考訳(メタデータ) (2024-01-10T09:15:50Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Robust Activity Recognition for Adaptive Worker-Robot Interaction using
Transfer Learning [0.0]
本稿では,建設労働者の行動認識のための伝達学習手法を提案する。
開発したアルゴリズムは、オリジナルの著者によって事前訓練されたモデルから特徴を伝達し、それらを下流のアクティビティ認識タスクのために微調整する。
その結果, 微調整モデルでは, 異なるMMHタスクを頑健かつ適応的に認識できることが示唆された。
論文 参考訳(メタデータ) (2023-08-28T19:03:46Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。