論文の概要: Testing Human-Hand Segmentation on In-Distribution and Out-of-Distribution Data in Human-Robot Interactions Using a Deep Ensemble Model
- arxiv url: http://arxiv.org/abs/2501.07713v1
- Date: Mon, 13 Jan 2025 21:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:57.077430
- Title: Testing Human-Hand Segmentation on In-Distribution and Out-of-Distribution Data in Human-Robot Interactions Using a Deep Ensemble Model
- Title(参考訳): ディープ・アンサンブル・モデルを用いた人間とロボットの相互作用における分布内および分布外データに基づく人手分割の検証
- Authors: Reza Jalayer, Yuxin Chen, Masoud Jalayer, Carlotta Orsenigo, Masayoshi Tomizuka,
- Abstract要約: 我々は、IDデータとより挑戦的なOODシナリオの両方の下で、事前学習されたディープラーニングモデルの性能を評価することによって、新しいアプローチを提案する。
動作の速い手から指を横切る動作や動きのぼやけなど,特異かつ稀な条件を取り入れた。
その結果、産業用データセットでトレーニングされたモデルは、非工業用データセットでトレーニングされたモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 40.815678328617686
- License:
- Abstract: Reliable detection and segmentation of human hands are critical for enhancing safety and facilitating advanced interactions in human-robot collaboration. Current research predominantly evaluates hand segmentation under in-distribution (ID) data, which reflects the training data of deep learning (DL) models. However, this approach fails to address out-of-distribution (OOD) scenarios that often arise in real-world human-robot interactions. In this study, we present a novel approach by evaluating the performance of pre-trained DL models under both ID data and more challenging OOD scenarios. To mimic realistic industrial scenarios, we designed a diverse dataset featuring simple and cluttered backgrounds with industrial tools, varying numbers of hands (0 to 4), and hands with and without gloves. For OOD scenarios, we incorporated unique and rare conditions such as finger-crossing gestures and motion blur from fast-moving hands, addressing both epistemic and aleatoric uncertainties. To ensure multiple point of views (PoVs), we utilized both egocentric cameras, mounted on the operator's head, and static cameras to capture RGB images of human-robot interactions. This approach allowed us to account for multiple camera perspectives while also evaluating the performance of models trained on existing egocentric datasets as well as static-camera datasets. For segmentation, we used a deep ensemble model composed of UNet and RefineNet as base learners. Performance evaluation was conducted using segmentation metrics and uncertainty quantification via predictive entropy. Results revealed that models trained on industrial datasets outperformed those trained on non-industrial datasets, highlighting the importance of context-specific training. Although all models struggled with OOD scenarios, those trained on industrial datasets demonstrated significantly better generalization.
- Abstract(参考訳): 人間の手の検出とセグメンテーションは、安全性を高め、人間とロボットのコラボレーションにおける高度な相互作用を促進するために重要である。
現在の研究は、ディープラーニング(DL)モデルのトレーニングデータを反映したIDデータに基づく手分割を主に評価している。
しかし、このアプローチは、現実世界の人間とロボットの相互作用でしばしば発生するオフ・オブ・ディストリビューション(OOD)のシナリオに対処できない。
本研究では,IDデータとより困難なOODシナリオに基づいて,事前学習したDLモデルの性能を評価することによって,新しい手法を提案する。
現実的な産業シナリオを模倣するために,工業用ツールによるシンプルで散らかった背景,手数(0~4),手袋を装着しない手を備えた多様なデータセットを設計した。
OODのシナリオでは, 指交差動作や速動動作による動作のぼやけなどの特異かつ稀な条件を取り入れ, てんかん, 失語症, 失語症の両方に対処した。
マルチポイントビュー(PoV)を確保するために,オペレーターの頭部に装着された自我中心カメラと静的カメラの両方を用いて,人間とロボットのインタラクションのRGB画像をキャプチャした。
このアプローチにより、既存のエゴセントリックデータセットと静的カメラデータセットでトレーニングされたモデルのパフォーマンスを評価しながら、複数のカメラ視点を考慮できるようになりました。
セグメンテーションでは,ベースラーナーとしてUNetとRefineNetを組み合わせた深層アンサンブルモデルを用いた。
セグメンテーション指標と予測エントロピーによる不確実性定量化を用いて性能評価を行った。
その結果、産業データセットでトレーニングされたモデルは、非産業データセットでトレーニングされたモデルよりも優れており、コンテキスト固有のトレーニングの重要性が強調された。
すべてのモデルがOODシナリオに苦しんだが、産業データセットでトレーニングされたモデルは、はるかに優れた一般化を示した。
関連論文リスト
- Benchmarking 2D Egocentric Hand Pose Datasets [1.611271868398988]
エゴセントリックビデオからのポーズ推定は、様々な領域に広範に影響を及ぼす。
本研究は2次元ポーズ推定に適した最先端のエゴセントリックデータセットの分析に充てられる。
論文 参考訳(メタデータ) (2024-09-11T15:18:11Z) - The Collection of a Human Robot Collaboration Dataset for Cooperative Assembly in Glovebox Environments [2.30069810310356]
産業4.0は、製造プロセスの近代化のための変革的ソリューションとしてAIを導入した。その後継である産業5.0は、AI駆動製造ソリューションを導くために、人間を協力者と専門家として想定している。
新しい技術は、共同組み立て中にシーン、特に手の位置を安全かつリアルタイムに識別できるアルゴリズムを必要とする。
このデータセットは、産業用人間ロボットコラボレーションシナリオにおいて、手動と手袋のセグメンテーションに向けたアプリケーションを構築する上で、困難な例を提供する。
論文 参考訳(メタデータ) (2024-07-19T19:56:53Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。