論文の概要: A vision-based framework for human behavior understanding in industrial assembly lines
- arxiv url: http://arxiv.org/abs/2409.17356v1
- Date: Wed, 25 Sep 2024 21:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 11:54:28.978953
- Title: A vision-based framework for human behavior understanding in industrial assembly lines
- Title(参考訳): 産業組立ラインにおける人間の行動理解のための視覚的枠組み
- Authors: Konstantinos Papoutsakis, Nikolaos Bakalos, Konstantinos Fragkoulis, Athena Zacharia, Georgia Kapetadimitri, Maria Pateraki,
- Abstract要約: 本稿では,産業用組立ラインにおける人間の行動の把握と理解のためのビジョンベースフレームワークを提案する。
このフレームワークは高度なコンピュータビジョン技術を活用し、労働者の位置と3Dポーズを推定し、作業姿勢、行動、タスク進捗を分析する。
重要なコントリビューションは、現実的な環境でキャプチャされたドメイン関連アセンブリアクションを含む、CarDAデータセットの導入である。
- 参考スコア(独自算出の注目度): 0.7037008937757392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a vision-based framework for capturing and understanding human behavior in industrial assembly lines, focusing on car door manufacturing. The framework leverages advanced computer vision techniques to estimate workers' locations and 3D poses and analyze work postures, actions, and task progress. A key contribution is the introduction of the CarDA dataset, which contains domain-relevant assembly actions captured in a realistic setting to support the analysis of the framework for human pose and action analysis. The dataset comprises time-synchronized multi-camera RGB-D videos, motion capture data recorded in a real car manufacturing environment, and annotations for EAWS-based ergonomic risk scores and assembly activities. Experimental results demonstrate the effectiveness of the proposed approach in classifying worker postures and robust performance in monitoring assembly task progress.
- Abstract(参考訳): 本稿では,自動車ドア製造に焦点をあて,産業用組立ラインにおける人間の行動の把握と理解を目的としたビジョンベースフレームワークを提案する。
このフレームワークは高度なコンピュータビジョン技術を活用し、労働者の位置と3Dポーズを推定し、作業姿勢、行動、タスク進捗を分析する。
重要な貢献はCarDAデータセットの導入である。これは、人間のポーズとアクション分析のためのフレームワークの分析をサポートするために、現実的な環境でキャプチャされたドメイン関連アセンブリアクションを含んでいる。
データセットは、タイム同期されたマルチカメラRGB-Dビデオ、実際の自動車製造環境で記録されたモーションキャプチャデータ、EAWSベースのエルゴノミックリスクスコアとアセンブリアクティビティのアノテーションを含む。
実験により,作業者の姿勢の分類における提案手法の有効性と,組立作業の進捗監視における頑健な性能が示された。
関連論文リスト
- Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation [13.736566979493613]
本モデルでは,カメラのNext-Best-View(NBV)ポリシーとグリップのNext-Best Pose(NBP)ポリシーを直列接続し,数発の強化学習を用いてセンサ・モーター協調フレームワークでトレーニングする。
このアプローチにより、エージェントは3人称カメラを調整し、タスクゴールに基づいて環境を積極的に観察し、その後に適切な操作行動を推測することができる。
その結果,操作タスクにおける視覚的制約処理の有効性を示すとともに,ベースラインアルゴリズムを一貫して上回る結果が得られた。
論文 参考訳(メタデータ) (2024-09-23T10:38:20Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Evaluating Robustness of Visual Representations for Object Assembly Task
Requiring Spatio-Geometrical Reasoning [8.626019848533707]
本稿では,オブジェクト・アセンブリ・タスクのコンテキストにおける視覚表現の堅牢性の評価と評価に焦点をあてる。
我々は視覚前訓練モデルを視覚エンコーダとして利用するビズモータ政策学習の一般的な枠組みを用いる。
本研究は、両腕操作装置に適用する場合、特にグリップ変動に対して、この枠組みの頑健性について検討する。
論文 参考訳(メタデータ) (2023-10-15T20:41:07Z) - Robotic Handling of Compliant Food Objects by Robust Learning from
Demonstration [79.76009817889397]
本稿では,食品に適合する物体をロボットで把握する上で,実証からの学習(LfD)に基づく頑健な学習方針を提案する。
教師の意図した方針を推定し,無矛盾な実演を自動的に除去するLfD学習ポリシーを提案する。
提案されたアプローチは、前述の業界セクターで幅広い応用が期待できる。
論文 参考訳(メタデータ) (2023-09-22T13:30:26Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。