論文の概要: Person Segmentation and Action Classification for Multi-Channel Hemisphere Field of View LiDAR Sensors
- arxiv url: http://arxiv.org/abs/2411.11151v1
- Date: Sun, 17 Nov 2024 18:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:24.763911
- Title: Person Segmentation and Action Classification for Multi-Channel Hemisphere Field of View LiDAR Sensors
- Title(参考訳): ビューLiDARセンサのマルチチャネル半球領域における人物セグメンテーションと行動分類
- Authors: Svetlana Seliunina, Artem Otelepko, Raphael Memmesheimer, Sven Behnke,
- Abstract要約: 本稿では,LiDARセンサの視界の3次元スキャンを対象とし,人物のセグメンテーションと行動分類を行う手法を提案する。
本研究では,MaskDINOモデルを用いて人を検出し,その動作を球面投影型マルチチャネル表現から認識する手法を提案する。
- 参考スコア(独自算出の注目度): 16.064583670720587
- License:
- Abstract: Robots need to perceive persons in their surroundings for safety and to interact with them. In this paper, we present a person segmentation and action classification approach that operates on 3D scans of hemisphere field of view LiDAR sensors. We recorded a data set with an Ouster OSDome-64 sensor consisting of scenes where persons perform three different actions and annotated it. We propose a method based on a MaskDINO model to detect and segment persons and to recognize their actions from combined spherical projected multi-channel representations of the LiDAR data with an additional positional encoding. Our approach demonstrates good performance for the person segmentation task and further performs well for the estimation of the person action states walking, waving, and sitting. An ablation study provides insights about the individual channel contributions for the person segmentation task. The trained models, code and dataset are made publicly available.
- Abstract(参考訳): ロボットは周囲の人間を安全と認識し、それらと対話する必要がある。
本稿では,LiDARセンサの視界の3次元スキャンを対象とし,人物のセグメンテーションと行動分類を行う手法を提案する。
我々はOuster OSDome-64センサーで3つの異なるアクションを実行してアノテートするシーンからなるデータセットを記録した。
そこで本稿では,LiDARデータの球面投影型多チャンネル表現を付加的な位置符号化で検出し,その動作を認識するためのMaskDINOモデルを提案する。
提案手法は, 歩行, 振舞, 座る動作状態の推定において, 作業者のセグメンテーション作業に優れた性能を示し, さらに, 歩行, 振舞, 座る動作状態の推定にも有効である。
アブレーション研究は、個人セグメンテーションタスクに対する個々のチャネルコントリビューションに関する洞察を提供する。
トレーニングされたモデル、コード、データセットが公開されている。
関連論文リスト
- Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D
Human Keypoints [25.550524178542833]
歩行者の横断行動認識と軌道予測のための新しいマルチタスク学習フレームワークを提案する。
生のセンサデータから抽出した3D人間のキーポイントを用いて、人間のポーズや活動に関する豊富な情報をキャプチャする。
提案手法は,幅広い評価指標を用いて最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T18:27:48Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Benchmarking person re-identification datasets and approaches for
practical real-world implementations [1.0079626733116613]
人物再識別(Re-ID)は注目されている。
しかし、そのようなRe-IDモデルが新しい都市や環境に配備される場合、セキュリティカメラのネットワーク内の人々を探すタスクは、重要なドメインシフトに直面している可能性が高い。
本稿では、ライブオペレーションにおける教師なしデプロイメントに適したデータセットの評価方法について、Re-IDアプローチとトレーニングデータセットの完全な評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T03:45:38Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - Instance Segmentation with Cross-Modal Consistency [13.524441194366544]
本稿では,複数センサモードの測定を協調的に活用するインスタンスセグメンテーションへの新しいアプローチを提案する。
本手法は, センサ・モダリティと時間領域の両面において, 現場の点に対してコントラスト学習を適用した。
この定式化は、視点の変化に不変な埋め込みを学ぶことをモデルに促すことを実証する。
論文 参考訳(メタデータ) (2022-10-14T21:17:19Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing [65.87931036949458]
Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
DAP(disentangled action parsing)というシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-05T02:29:32Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。