論文の概要: Unmanned Aerial Vehicle Control Through Domain-based Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2009.04215v1
- Date: Wed, 9 Sep 2020 11:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 11:49:07.178708
- Title: Unmanned Aerial Vehicle Control Through Domain-based Automatic Speech
Recognition
- Title(参考訳): ドメインベース自動音声認識による無人航空機制御
- Authors: Ruben Contreras, Angel Ayala, Francisco Cruz
- Abstract要約: 本稿では,ドローンなどの無人航空機を制御するためのドメインベース音声認識アーキテクチャを提案する。
ドローン制御は、より自然で人間的な方法で指示を伝える。
スペイン語と英語の両方を用いて,命令解釈のためのアルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, unmanned aerial vehicles, such as drones, are becoming a part of
our lives and reaching out to many areas of society, including the
industrialized world. A common alternative to control the movements and actions
of the drone is through unwired tactile interfaces, for which different remote
control devices can be found. However, control through such devices is not a
natural, human-like communication interface, which sometimes is difficult to
master for some users. In this work, we present a domain-based speech
recognition architecture to effectively control an unmanned aerial vehicle such
as a drone. The drone control is performed using a more natural, human-like way
to communicate the instructions. Moreover, we implement an algorithm for
command interpretation using both Spanish and English languages, as well as to
control the movements of the drone in a simulated domestic environment. The
conducted experiments involve participants giving voice commands to the drone
in both languages in order to compare the effectiveness of each of them,
considering the mother tongue of the participants in the experiment.
Additionally, different levels of distortion have been applied to the voice
commands in order to test the proposed approach when facing noisy input
signals. The obtained results show that the unmanned aerial vehicle is capable
of interpreting user voice instructions achieving an improvement in
speech-to-action recognition for both languages when using phoneme matching in
comparison to only using the cloud-based algorithm without domain-based
instructions. Using raw audio inputs, the cloud-based approach achieves 74.81%
and 97.04% accuracy for English and Spanish instructions respectively, whereas
using our phoneme matching approach the results are improved achieving 93.33%
and 100.00% accuracy for English and Spanish languages.
- Abstract(参考訳): 現在、ドローンのような無人航空機は私たちの生活の一部となり、工業化された世界を含む社会の多くの領域に手を差し伸べている。
ドローンの動きや動作を制御するための一般的な代替手段は、異なるリモコンデバイスを見つけることができる無配線の触覚インターフェースである。
しかし、このようなデバイスによる制御は人間のような自然なコミュニケーションインタフェースではないため、一部のユーザにとってはマスターが難しい場合もある。
本稿では,ドローンなどの無人航空機を効果的に制御するためのドメインベースの音声認識アーキテクチャを提案する。
ドローンのコントロールは、より自然で人間のような方法で指示を伝える。
さらに、スペイン語と英語の両方の言語を用いてコマンド解釈を行うアルゴリズムを実装し、シミュレートされた家庭環境下でのドローンの動きを制御する。
実験では、被験者の母国語を考慮し、各参加者の有効性を比較するために、両方の言語でドローンに音声コマンドを与える。
さらに,雑音の強い入力信号に直面するとき,提案手法をテストするために,音声コマンドに異なる歪みレベルを適用した。
その結果,この無人航空機は,ドメインベース命令を使わずにクラウドベースのアルゴリズムのみを使用する場合と比較して,音素マッチングを用いた場合,両方の言語での音声対話認識の改善を実現することができることがわかった。
生音声入力を用いて, 英語とスペイン語の指示に対して74.81%, 97.04%の精度が得られたが, 音声マッチングでは93.33%, スペイン語では100.00%の精度が向上した。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Learning to Communicate Functional States with Nonverbal Expressions for Improved Human-Robot Collaboration [3.5408317027307055]
協調ロボットは、スムーズな対話を可能にするために、内部状態を人間に効果的に伝える必要がある。
雑音の多い人間のフィードバックに基づく強化学習アルゴリズムを提案し, 正確に解釈された非言語音声表現を生成する。
論文 参考訳(メタデータ) (2024-04-30T04:18:21Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning [82.91837418721182]
適応インターフェイスは、ユーザがシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとの対話によってこのようなシステムが改善されている。
本稿では,生のコマンド信号をアクションにマッピングするインタフェースを訓練するための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-07T16:52:27Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Robust Sensor Fusion Algorithms Against VoiceCommand Attacks in
Autonomous Vehicles [8.35945218644081]
そこで本研究では,非可聴コマンド攻撃を防御するマルチモーダル深層学習分類システムを提案する。
提案手法の有効性を確認し,最良の分類精度は89.2%に達した。
論文 参考訳(メタデータ) (2021-04-20T10:08:46Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - American Sign Language Identification Using Hand Trackpoint Analysis [0.0]
ハンドトラックポイントを用いたアメリカ手話識別のための新しい機械学習ベースパイプラインを提案する。
我々は手の動きを,システムへの入力として機能する一連のハンドトラックポイント座標に変換する。
我々のシステムは、アメリカの手話のジェスチャーを識別するために95.66%の精度を達成した。
論文 参考訳(メタデータ) (2020-10-20T19:59:16Z) - Learn by Observation: Imitation Learning for Drone Patrolling from
Videos of A Human Navigator [22.06785798356346]
本研究では,人間航法士が地上でどのように行うかを観察し,模擬することにより,ドローンに空中パトロールを学ばせることを提案する。
観察プロセスは、フレーム間の幾何一貫性を利用してデータの自動収集とアノテーションを可能にする。
アノテーション付きデータに基づいて、新たに設計されたニューラルネットワークをトレーニングし、適切な方向と翻訳を予測する。
論文 参考訳(メタデータ) (2020-08-30T15:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。