Fugu-MT 論文翻訳(概要): Semantic Labeling of Human Action For Visually Impaired And Blind People Scene Interaction

論文の概要: Semantic Labeling of Human Action For Visually Impaired And Blind People Scene Interaction

arxiv url: http://arxiv.org/abs/2201.04706v1
Date: Wed, 12 Jan 2022 21:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-14 13:57:17.503500
Title: Semantic Labeling of Human Action For Visually Impaired And Blind People Scene Interaction
Title（参考訳）: 視覚障害者と視覚障害者のシーンインタラクションのための人間行動のセマンティックラベリング
Authors: Leyla Benhamida, Slimane Larabi
Abstract要約: 本研究の目的は視覚障害者のための触覚装置の開発に貢献することである。我々はKinectが提供するスケルトン情報を用いて,多スケールグラフ畳み込み(MS-G3D)モデルを用いて,動作の認識を行う。認識されたアクションは意味的にラベル付けされ、タッチ感覚によって知覚可能な出力デバイスにマッピングされる。
参考スコア（独自算出の注目度）: 1.52292571922932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The aim of this work is to contribute to the development of a tactile device for visually impaired and blind persons in order to let them to understand actions of the surrounding people and to interact with them. First, based on the state-of-the-art methods of human action recognition from RGB-D sequences, we use the skeleton information provided by Kinect, with the disentangled and unified multi-scale Graph Convolutional (MS-G3D) model to recognize the performed actions. We tested this model on real scenes and found some of constraints and limitations. Next, we apply a fusion between skeleton modality with MS-G3D and depth modality with CNN in order to bypass the discussed limitations. Third, the recognized actions are labeled semantically and will be mapped into an output device perceivable by the touch sense.
Abstract（参考訳）: 本研究の目的は,視覚障害者と視覚障害者のための触覚装置の開発に寄与し,周囲の人々の行動を理解し,それらと対話することにある。まず、rgb-d系列からの人間の行動認識の最先端手法に基づいて、kinectが提供するスケルトン情報を用い、不連続で統一された多スケールグラフ畳み込みモデル(ms-g3d)を用いて、動作の認識を行う。このモデルを実環境でテストし、いくつかの制約と制限を見つけました。次に,ms-g3dのスケルトンモダリティとcnnの深さモダリティとの融合を適用し,その限界を回避した。第3に、認識されたアクションは意味的にラベル付けされ、タッチセンスによって認識可能な出力デバイスにマッピングされる。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
Deep self-supervised learning with visualisation for automatic gesture recognition [1.6647755388646919]
ジェスチャーは非言語コミュニケーションの重要な手段であり、視覚的モダリティにより、人間が対話中に情報を伝達し、人々や人間と機械の相互作用を促進する。本研究では, 深層学習を用いた手指の認識方法として, 教師あり学習法, 自己教師あり手法, 3次元移動骨格データに適用した可視化技術について検討する。
論文参考訳（メタデータ） (2024-06-18T09:44:55Z)
SMART: Scene-motion-aware human action recognition framework for mental disorder group [16.60713558596286]
本稿では、精神障害グループで頻繁に発生する異常行動を含む視覚に基づくヒューマンアクション認識データセットを構築することを提案する。次に,Scene-Motion-Aware Action RecognitionフレームワークであるSMARTを紹介した。提案手法の有効性を自己収集したHARデータセット(HAD)で検証し,未確認の被写体とシーンにおいて94.9%,93.1%の精度を達成し,最先端のアプローチを6.5%,13.2%向上させた。
論文参考訳（メタデータ） (2024-06-07T05:29:42Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
CaSAR: Contact-aware Skeletal Action Recognition [47.249908147135855]
コンタクト対応骨格行動認識(CaSAR)と呼ばれる新しいフレームワークを提案する。 CaSARは空間情報を包含する手オブジェクト相互作用の新たな表現を使用する。我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
論文参考訳（メタデータ） (2023-09-17T09:42:40Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。 ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文参考訳（メタデータ） (2023-03-23T11:36:14Z)
Human keypoint detection for close proximity human-robot interaction [29.99153271571971]
近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。 MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。本稿では,MMPose または AlphaPose の身体用と MediaPipe を,最も正確かつ堅牢な検出が可能な単一のフレームワークで組み合わせて提案する。
論文参考訳（メタデータ） (2022-07-15T20:33:29Z)
Joint-bone Fusion Graph Convolutional Network for Semi-supervised Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文参考訳（メタデータ） (2022-02-08T16:03:15Z)
Skeleton-Based Mutually Assisted Interacted Object Localization and Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文参考訳（メタデータ） (2021-10-28T10:09:34Z)
Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文参考訳（メタデータ） (2021-09-09T16:04:14Z)
"What's This?" -- Learning to Segment Unknown Objects from Manipulation Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文参考訳（メタデータ） (2020-11-06T10:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。