論文の概要: Semantic Labeling of Human Action For Visually Impaired And Blind People
Scene Interaction
- arxiv url: http://arxiv.org/abs/2201.04706v1
- Date: Wed, 12 Jan 2022 21:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:57:17.503500
- Title: Semantic Labeling of Human Action For Visually Impaired And Blind People
Scene Interaction
- Title(参考訳): 視覚障害者と視覚障害者のシーンインタラクションのための人間行動のセマンティックラベリング
- Authors: Leyla Benhamida, Slimane Larabi
- Abstract要約: 本研究の目的は視覚障害者のための触覚装置の開発に貢献することである。
我々はKinectが提供するスケルトン情報を用いて,多スケールグラフ畳み込み(MS-G3D)モデルを用いて,動作の認識を行う。
認識されたアクションは意味的にラベル付けされ、タッチ感覚によって知覚可能な出力デバイスにマッピングされる。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this work is to contribute to the development of a tactile device
for visually impaired and blind persons in order to let them to understand
actions of the surrounding people and to interact with them. First, based on
the state-of-the-art methods of human action recognition from RGB-D sequences,
we use the skeleton information provided by Kinect, with the disentangled and
unified multi-scale Graph Convolutional (MS-G3D) model to recognize the
performed actions. We tested this model on real scenes and found some of
constraints and limitations. Next, we apply a fusion between skeleton modality
with MS-G3D and depth modality with CNN in order to bypass the discussed
limitations. Third, the recognized actions are labeled semantically and will be
mapped into an output device perceivable by the touch sense.
- Abstract(参考訳): 本研究の目的は,視覚障害者と視覚障害者のための触覚装置の開発に寄与し,周囲の人々の行動を理解し,それらと対話することにある。
まず、rgb-d系列からの人間の行動認識の最先端手法に基づいて、kinectが提供するスケルトン情報を用い、不連続で統一された多スケールグラフ畳み込みモデル(ms-g3d)を用いて、動作の認識を行う。
このモデルを実環境でテストし、いくつかの制約と制限を見つけました。
次に,ms-g3dのスケルトンモダリティとcnnの深さモダリティとの融合を適用し,その限界を回避した。
第3に、認識されたアクションは意味的にラベル付けされ、タッチセンスによって認識可能な出力デバイスにマッピングされる。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - CaSAR: Contact-aware Skeletal Action Recognition [47.249908147135855]
コンタクト対応骨格行動認識(CaSAR)と呼ばれる新しいフレームワークを提案する。
CaSARは空間情報を包含する手オブジェクト相互作用の新たな表現を使用する。
我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
論文 参考訳(メタデータ) (2023-09-17T09:42:40Z) - GRIP: Generating Interaction Poses Using Latent Consistency and Spatial
Cues [60.90013719118856]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Human keypoint detection for close proximity human-robot interaction [29.99153271571971]
近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。
MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。
本稿では,MMPose または AlphaPose の身体用と MediaPipe を,最も正確かつ堅牢な検出が可能な単一のフレームワークで組み合わせて提案する。
論文 参考訳(メタデータ) (2022-07-15T20:33:29Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Seeing by haptic glance: reinforcement learning-based 3D object
Recognition [31.80213713136647]
対象物と指の間の触覚接触数に制限があり、対象物を見ることなく3D認識を行うことができる。
この能力は認知神経科学における「触覚的視線」と定義される。
既存の3D認識モデルのほとんどは、高密度な3Dデータに基づいて開発された。
触覚探索によって3Dデータを収集するためにロボットが使用される多くの実生活のユースケースでは、限られた数の3Dポイントしか収集できない。
アクティブに収集された3Dで客観的な3D認識と同時に触覚探査手順を最適化する新しい強化学習ベースのフレームワークが提案される。
論文 参考訳(メタデータ) (2021-02-15T15:38:22Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。