Fugu-MT 論文翻訳(概要): Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks

論文の概要: Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks

arxiv url: http://arxiv.org/abs/2407.08658v1
Date: Wed, 10 Jul 2024 15:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 16:30:47.719578
Title: Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks
Title（参考訳）: ドローン制御のための音声コマンドパイプラインの評価:STTとLCMから直接分類とシームズネットワークへ
Authors: Lucca Emmanuel Pineli Simões, Lucas Brandão Rodrigues, Rafaela Mota Silva, Gustavo Rodrigues da Silva,
Abstract要約: 本研究の目的は、ドローン動作の直感的な音声制御を可能にすることにより、人間と機械の相互作用を強化することである。開発されたパイプラインには、(1)従来の音声テキスト(STT)、次いでLarge Language Model(LLM)アプローチ、(2)直接音声から関数へのマッピングモデル、(3)Siameseニューラルネットワークベースのシステムが含まれる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the development and comparative evaluation of three voice command pipelines for controlling a Tello drone, using speech recognition and deep learning techniques. The aim is to enhance human-machine interaction by enabling intuitive voice control of drone actions. The pipelines developed include: (1) a traditional Speech-to-Text (STT) followed by a Large Language Model (LLM) approach, (2) a direct voice-to-function mapping model, and (3) a Siamese neural network-based system. Each pipeline was evaluated based on inference time, accuracy, efficiency, and flexibility. Detailed methodologies, dataset preparation, and evaluation metrics are provided, offering a comprehensive analysis of each pipeline's strengths and applicability across different scenarios.
Abstract（参考訳）: 本稿では,音声認識とディープラーニング技術を用いて,Telloドローンを制御するための3つの音声コマンドパイプラインの開発と比較評価を行う。本研究の目的は、ドローン動作の直感的な音声制御を可能にすることにより、人間と機械の相互作用を強化することである。開発されたパイプラインには、(1)従来の音声テキスト(STT)、次いでLarge Language Model(LLM)アプローチ、(2)直接音声から関数へのマッピングモデル、(3)Siameseニューラルネットワークベースのシステムが含まれる。各パイプラインは、推測時間、正確性、効率、柔軟性に基づいて評価された。詳細な方法論、データセットの準備、評価メトリクスが提供され、さまざまなシナリオにわたる各パイプラインの強みと適用性に関する包括的な分析を提供する。

関連論文リスト

Chain-of-Thought Training for Open E2E Spoken Dialogue Systems [57.77235760292348]
エンド・ツー・エンド(E2E)音声対話システムは完全な識別性を保ち、非音声情報をキャプチャする。我々は,多モーダル言語モデルと密接に一致した会話データによる学習を確実にするためのチェーン・オブ・シント(CoT)の定式化を提案する。提案手法はベースラインよりも1.5ROUGE-1の改善を実現し,一般公開された人間と人間の会話データセット上で音声対話システムの訓練に成功している。
論文参考訳（メタデータ） (2025-05-31T21:43:37Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。 LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文参考訳（メタデータ） (2023-02-22T10:06:37Z)
L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。 wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文参考訳（メタデータ） (2022-11-16T11:47:20Z)
ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications [51.24043482906732]
本稿では,ATC分野の研究を促進するためのデータセットであるATCO2コーパスを紹介する。 ATCO2コーパスは3つのサブセットに分けられる。我々はATCO2コーパスが堅牢なASRとNLUの研究を促進することを期待している。
論文参考訳（メタデータ） (2022-11-08T07:26:45Z)
Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文参考訳（メタデータ） (2022-05-30T12:41:23Z)
A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches [9.565067058593316]
本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
論文参考訳（メタデータ） (2021-11-03T07:00:20Z)
Emphasis control for parallel neural TTS [8.039245267912511]
音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。近年のパラレル・ニューラルテキスト・トゥ・音声(TTS)法は,高性能を維持しつつ高い忠実度で音声を生成することができる。本稿では,重心変化に対応する潜在空間を学習することにより,韻律強調制御のための階層型並列型ニューラルネットワークTSシステムを提案する。
論文参考訳（メタデータ） (2021-10-06T18:45:39Z)
SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。 Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文参考訳（メタデータ） (2021-07-20T10:19:46Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文参考訳（メタデータ） (2020-09-23T08:07:58Z)
Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文参考訳（メタデータ） (2020-05-18T04:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。