論文の概要: Voice Recognition Robot with Real-Time Surveillance and Automation
- arxiv url: http://arxiv.org/abs/2312.04072v1
- Date: Thu, 7 Dec 2023 06:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:51:12.580732
- Title: Voice Recognition Robot with Real-Time Surveillance and Automation
- Title(参考訳): リアルタイム監視と自動化による音声認識ロボット
- Authors: Lochan Basyal
- Abstract要約: 本稿では,Android アプリケーションを用いて入力音声信号を対応するテキストに変換する音声認識システムを提案する。
テキストメッセージはBluetooth経由で送信され、通信プラットフォームとして機能する。
本稿では,音声認識のリアルタイム監視・自動化への応用を拡張し,障害物検出・回避機構を取り入れた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice recognition technology enables the execution of real-world operations
through a single voice command. This paper introduces a voice recognition
system that involves converting input voice signals into corresponding text
using an Android application. The text messages are then transmitted through
Bluetooth connectivity, serving as a communication platform. Simultaneously, a
controller circuit, equipped with a Bluetooth module, receives the text signal
and, following a coding mechanism, executes real-world operations. The paper
extends the application of voice recognition to real-time surveillance and
automation, incorporating obstacle detection and avoidance mechanisms, as well
as control over lighting and horn functions through predefined voice commands.
The proposed technique not only serves as an assistive tool for individuals
with disabilities but also finds utility in industrial automation, enabling
robots to perform specific tasks with precision.
- Abstract(参考訳): 音声認識技術は単一の音声コマンドで現実世界の操作を実行することができる。
本稿では,androidアプリケーションを用いて入力音声信号を対応するテキストに変換する音声認識システムを提案する。
テキストメッセージはBluetooth経由で送信され、通信プラットフォームとして機能する。
同時に、Bluetoothモジュールを備えたコントローラ回路がテキスト信号を受信し、コーディング機構に従って現実世界の操作を実行する。
本稿では,音声認識をリアルタイム監視・自動化に適用し,障害物検出・回避機構を取り入れ,予め定義された音声コマンドによる照明・ホルン機能の制御を行う。
提案手法は,障害者支援ツールとして機能するだけでなく,産業オートメーションにも有用であり,ロボットが精密に特定のタスクをこなせるようにするものである。
関連論文リスト
- Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - DualVoice: Speech Interaction that Discriminates between Normal and
Whispered Voice Input [16.82591185507251]
発声コマンドと音声入力に必要なテキストを区別する簡単な方法はない。
記号やコマンドの入力も、それらがテキスト文字として誤解される可能性があるため、難しい。
本研究では,DualVoiceと呼ばれる音声対話手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T13:01:28Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Experiences with the Introduction of AI-based Tools for Moderation
Automation of Voice-based Participatory Media Forums [0.5243067689245634]
我々は、空白またはノイズの多い音声をフィルタリングするAIツールを導入し、音声認識を使ってテキストで音声メッセージを書き起こし、自然言語処理技術を使って音声書き起こしからメタデータを抽出する。
本稿では,これらのツールの導入による時間とコスト削減の点から,AIベースの自動化のワークフローへの受容性に対するモデレーターのフィードバックについて述べる。
我々の研究は、いくつかのルーチンタスクの自動化にAIを使用する場合のケーススタディを形成しており、特に、発展途上国における音声技術の使用に関わる他の研究者や実践者には特に関係がある。
論文 参考訳(メタデータ) (2021-08-09T17:50:33Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - A Deep Learning based Wearable Healthcare IoT Device for AI-enabled
Hearing Assistance Automation [6.283190933140046]
本研究は、聴覚障害や聴覚障害に苦しむ人々を支援するAI対応IoT(Internet of Things)デバイスを提案する。
Googleのオンライン音声認識サービスを活用して、受信した会話をテキストに変換し、眼鏡に取り付けられたマイクロディスプレイに展開し、会話内容を聴覚障害者に表示するサーバアプリケーションを作成する。
論文 参考訳(メタデータ) (2020-05-16T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。