論文の概要: Robotic Detection of a Human-Comprehensible Gestural Language for
Underwater Multi-Human-Robot Collaboration
- arxiv url: http://arxiv.org/abs/2207.05331v1
- Date: Tue, 12 Jul 2022 06:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 15:05:41.367185
- Title: Robotic Detection of a Human-Comprehensible Gestural Language for
Underwater Multi-Human-Robot Collaboration
- Title(参考訳): 水中マルチヒューマン・ロボット協調のための人間理解型ジェストラル言語のロボット検出
- Authors: Sadman Sakib Enan, Michael Fulton and Junaed Sattar
- Abstract要約: 本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。
我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。
Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
- 参考スコア(独自算出の注目度): 16.823029377470363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a motion-based robotic communication framework that
enables non-verbal communication among autonomous underwater vehicles (AUVs)
and human divers. We design a gestural language for AUV-to-AUV communication
which can be easily understood by divers observing the conversation unlike
typical radio frequency, light, or audio based AUV communication. To allow AUVs
to visually understand a gesture from another AUV, we propose a deep network
(RRCommNet) which exploits a self-attention mechanism to learn to recognize
each message by extracting maximally discriminative spatio-temporal features.
We train this network on diverse simulated and real-world data. Our
experimental evaluations, both in simulation and in closed-water robot trials,
demonstrate that the proposed RRCommNet architecture is able to decipher
gesture-based messages with an average accuracy of 88-94% on simulated data,
73-83% on real data (depending on the version of the model used). Further, by
performing a message transcription study with human participants, we also show
that the proposed language can be understood by humans, with an overall
transcription accuracy of 88%. Finally, we discuss the inference runtime of
RRCommNet on embedded GPU hardware, for real-time use on board AUVs in the
field.
- Abstract(参考訳): 本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。
AUV-to-AUV通信のためのジェスチャー言語を設計し、通常の無線周波数や光、オーディオベースのAUV通信とは異なり、会話を観察するダイバーが容易に理解できるようにする。
AUVが他のAUVからのジェスチャーを視覚的に理解できるようにするために,最大判別時空間特徴を抽出して各メッセージを認識するための自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
シミュレーションと実世界のさまざまなデータに基づいて,このネットワークをトレーニングする。
シミュレーションとクローズドウォーターロボット実験の両方において,提案するrrcommnetアーキテクチャは,シミュレーションデータで平均88~94%,実データで73~83%の精度でジェスチャベースのメッセージを解読できることを実証した。
さらに,人間とメッセージの書き起こし研究を行うことで,提案言語が人間によって理解され,全体の書き起こし精度は88%であることを示す。
最後に,組み込みGPUハードウェア上でのRRCommNetの推論ランタイムについて論じ,現場のAUV上でのリアルタイム利用について述べる。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - Visual Detection of Diver Attentiveness for Underwater Human-Robot
Interaction [15.64806176508126]
自律型水中車両(AUV)におけるダイバーアテンション推定手法を提案する。
このフレームワークのコア要素はディープニューラルネットワーク(DATT-Netと呼ばれる)で、ダイバーの10の顔キーポイント間の幾何学的関係を利用して、その方向を決定する。
実験により,提案したDATT-Netアーキテクチャは,有望な精度でヒトダイバーの注意力を決定することができることを示した。
論文 参考訳(メタデータ) (2022-09-28T22:08:41Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Decoding EEG Brain Activity for Multi-Modal Natural Language Processing [9.35961671939495]
自然言語処理タスクを改善するために脳波脳活動データの可能性を体系的に分析する最初の大規模研究を行った。
脳波信号を周波数帯域にフィルタリングすることはブロードバンド信号よりも有益であることがわかった。
単語埋め込みタイプの範囲のために、EEGデータは二分および三分感情の分類を改善し、複数のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-02-17T09:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。