論文の概要: Semantic Labeling of Human Action For Visually Impaired And Blind People
Scene Interaction
- arxiv url: http://arxiv.org/abs/2201.04706v1
- Date: Wed, 12 Jan 2022 21:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:57:17.503500
- Title: Semantic Labeling of Human Action For Visually Impaired And Blind People
Scene Interaction
- Title(参考訳): 視覚障害者と視覚障害者のシーンインタラクションのための人間行動のセマンティックラベリング
- Authors: Leyla Benhamida, Slimane Larabi
- Abstract要約: 本研究の目的は視覚障害者のための触覚装置の開発に貢献することである。
我々はKinectが提供するスケルトン情報を用いて,多スケールグラフ畳み込み(MS-G3D)モデルを用いて,動作の認識を行う。
認識されたアクションは意味的にラベル付けされ、タッチ感覚によって知覚可能な出力デバイスにマッピングされる。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this work is to contribute to the development of a tactile device
for visually impaired and blind persons in order to let them to understand
actions of the surrounding people and to interact with them. First, based on
the state-of-the-art methods of human action recognition from RGB-D sequences,
we use the skeleton information provided by Kinect, with the disentangled and
unified multi-scale Graph Convolutional (MS-G3D) model to recognize the
performed actions. We tested this model on real scenes and found some of
constraints and limitations. Next, we apply a fusion between skeleton modality
with MS-G3D and depth modality with CNN in order to bypass the discussed
limitations. Third, the recognized actions are labeled semantically and will be
mapped into an output device perceivable by the touch sense.
- Abstract(参考訳): 本研究の目的は,視覚障害者と視覚障害者のための触覚装置の開発に寄与し,周囲の人々の行動を理解し,それらと対話することにある。
まず、rgb-d系列からの人間の行動認識の最先端手法に基づいて、kinectが提供するスケルトン情報を用い、不連続で統一された多スケールグラフ畳み込みモデル(ms-g3d)を用いて、動作の認識を行う。
このモデルを実環境でテストし、いくつかの制約と制限を見つけました。
次に,ms-g3dのスケルトンモダリティとcnnの深さモダリティとの融合を適用し,その限界を回避した。
第3に、認識されたアクションは意味的にラベル付けされ、タッチセンスによって認識可能な出力デバイスにマッピングされる。
関連論文リスト
- Deep self-supervised learning with visualisation for automatic gesture recognition [1.6647755388646919]
ジェスチャーは非言語コミュニケーションの重要な手段であり、視覚的モダリティにより、人間が対話中に情報を伝達し、人々や人間と機械の相互作用を促進する。
本研究では, 深層学習を用いた手指の認識方法として, 教師あり学習法, 自己教師あり手法, 3次元移動骨格データに適用した可視化技術について検討する。
論文 参考訳(メタデータ) (2024-06-18T09:44:55Z) - SMART: Scene-motion-aware human action recognition framework for mental disorder group [16.60713558596286]
本稿では、精神障害グループで頻繁に発生する異常行動を含む視覚に基づくヒューマンアクション認識データセットを構築することを提案する。
次に,Scene-Motion-Aware Action RecognitionフレームワークであるSMARTを紹介した。
提案手法の有効性を自己収集したHARデータセット(HAD)で検証し,未確認の被写体とシーンにおいて94.9%,93.1%の精度を達成し,最先端のアプローチを6.5%,13.2%向上させた。
論文 参考訳(メタデータ) (2024-06-07T05:29:42Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - CaSAR: Contact-aware Skeletal Action Recognition [47.249908147135855]
コンタクト対応骨格行動認識(CaSAR)と呼ばれる新しいフレームワークを提案する。
CaSARは空間情報を包含する手オブジェクト相互作用の新たな表現を使用する。
我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
論文 参考訳(メタデータ) (2023-09-17T09:42:40Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Human keypoint detection for close proximity human-robot interaction [29.99153271571971]
近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。
MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。
本稿では,MMPose または AlphaPose の身体用と MediaPipe を,最も正確かつ堅牢な検出が可能な単一のフレームワークで組み合わせて提案する。
論文 参考訳(メタデータ) (2022-07-15T20:33:29Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。