論文の概要: DualVoice: Speech Interaction that Discriminates between Normal and
Whispered Voice Input
- arxiv url: http://arxiv.org/abs/2208.10499v1
- Date: Mon, 22 Aug 2022 13:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 14:06:09.678721
- Title: DualVoice: Speech Interaction that Discriminates between Normal and
Whispered Voice Input
- Title(参考訳): DualVoice:通常の音声入力とWhispered音声入力を区別する音声対話
- Authors: Jun Rekimoto
- Abstract要約: 発声コマンドと音声入力に必要なテキストを区別する簡単な方法はない。
記号やコマンドの入力も、それらがテキスト文字として誤解される可能性があるため、難しい。
本研究では,DualVoiceと呼ばれる音声対話手法を提案する。
- 参考スコア(独自算出の注目度): 16.82591185507251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactions based on automatic speech recognition (ASR) have become widely
used, with speech input being increasingly utilized to create documents.
However, as there is no easy way to distinguish between commands being issued
and text required to be input in speech, misrecognitions are difficult to
identify and correct, meaning that documents need to be manually edited and
corrected. The input of symbols and commands is also challenging because these
may be misrecognized as text letters. To address these problems, this study
proposes a speech interaction method called DualVoice, by which commands can be
input in a whispered voice and letters in a normal voice. The proposed method
does not require any specialized hardware other than a regular microphone,
enabling a complete hands-free interaction. The method can be used in a wide
range of situations where speech recognition is already available, ranging from
text input to mobile/wearable computing. Two neural networks were designed in
this study, one for discriminating normal speech from whispered speech, and the
second for recognizing whisper speech. A prototype of a text input system was
then developed to show how normal and whispered voice can be used in speech
text input. Other potential applications using DualVoice are also discussed.
- Abstract(参考訳): 自動音声認識(asr)に基づく対話が広く使われ、音声入力が文書作成に利用されるようになっている。
しかし、発せられるコマンドと音声入力に必要なテキストの区別が容易ではないため、誤認識は識別や修正が困難であり、文書を手作業で編集して修正する必要がある。
記号やコマンドの入力も、テキスト文字として誤認識される可能性があるため、難しい。
これらの問題に対処するために,本研究では,コマンドをささやき声で入力し,通常の音声で文字を入力できる,デュアルボイスと呼ばれる音声対話方式を提案する。
提案手法は、通常のマイク以外の特別なハードウェアを必要としないため、完全なハンズフリーインタラクションが可能となる。
この方法は、テキスト入力からモバイル/ウェアラブルコンピューティングまで、音声認識が既に利用可能である幅広い状況で使用することができる。
本研究では,2つのニューラル・ネットワークをデザインした。1つは通常の音声とささやき声を区別し,もう1つはささやき声を認識するために設計された。
テキスト入力システムのプロトタイプが開発され、音声入力に通常の音声とささやき声がどれだけ使えるかを示すようになった。
DualVoiceを使った潜在的なアプリケーションについても論じられている。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Morse Code-Enabled Speech Recognition for Individuals with Visual and Hearing Impairments [0.0]
提案モデルでは,ユーザからの音声を音声認識層に送信し,テキストに変換する。
モース符号変換はプロセスであるため、モデルの精度は音声認識に完全に依存する。
提案されたモデルのWERと精度はそれぞれ10.18%と89.82%と決定される。
論文 参考訳(メタデータ) (2024-07-07T09:54:29Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - A Novel Scheme to classify Read and Spontaneous Speech [15.542726069501231]
本稿では,読み書き音声と自発音声を識別する新しい手法を提案する。
提案手法では,DeepSpeechオーディオ・アルファベット認識エンジンを事前訓練した。
論文 参考訳(メタデータ) (2023-06-13T11:16:52Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using
Natural Language Processing [0.0]
音声などの音声入力をデジタルフィルタを用いてテキストに変換するインタフェースを構築する。
また、言語的欠陥が時々現れ、性別認識、(音声を認識できない)不成功な音声認識、性別認識が失敗する可能性がある。
技術的問題が関与しているため,ソフトウェア問題の発生を防ぐための仲介役として機能するプログラムを開発した。
論文 参考訳(メタデータ) (2022-09-09T08:55:34Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。