論文の概要: Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using
Natural Language Processing
- arxiv url: http://arxiv.org/abs/2209.04189v1
- Date: Fri, 9 Sep 2022 08:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:39:11.002408
- Title: Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using
Natural Language Processing
- Title(参考訳): 自然言語処理を用いたデジタルフィルタによる音響信号(音声)のテキストへの変換
- Authors: Abhiram Katuri, Sindhu Salugu, Gelli Tharuni, Challa Sri Gouri
- Abstract要約: 音声などの音声入力をデジタルフィルタを用いてテキストに変換するインタフェースを構築する。
また、言語的欠陥が時々現れ、性別認識、(音声を認識できない)不成功な音声認識、性別認識が失敗する可能性がある。
技術的問題が関与しているため,ソフトウェア問題の発生を防ぐための仲介役として機能するプログラムを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most crucial aspects of communication in daily life is speech
recognition. Speech recognition that is based on natural language processing is
one of the essential elements in the conversion of one system to another. In
this paper, we created an interface that transforms speech and other auditory
inputs into text using a digital filter. Contrary to the many methods for this
conversion, it is also possible for linguistic faults to appear occasionally,
gender recognition, speech recognition that is unsuccessful (cannot recognize
voice), and gender recognition to fail. Since technical problems are involved,
we developed a program that acts as a mediator to prevent initiating software
issues in order to eliminate even this little deviation. Its planned MFCC and
HMM are in sync with its AI system. As a result, technical errors have been
avoided.
- Abstract(参考訳): 日常生活におけるコミュニケーションの最も重要な側面の1つは音声認識である。
自然言語処理に基づく音声認識は、あるシステムから別のシステムへの変換において不可欠な要素の1つである。
本稿では,音声などの聴覚入力をディジタルフィルタを用いてテキストに変換するインタフェースを開発した。
この変換の多くの方法とは対照的に、言語的欠陥が時々現れること、性別認識、失敗する(音声を認識できない)音声認識、性別認識が失敗することもある。
技術的問題が関与しているため、我々は、この小さなずれを解消するために、ソフトウェア問題の発生を阻止する仲介者として機能するプログラムを開発した。
計画中のMFCCとHMMは、AIシステムと同期している。
その結果、技術的な誤りは避けられた。
関連論文リスト
- Discrete Unit based Masking for Improving Disentanglement in Voice Conversion [8.337649176647645]
話者符号化前の入力に新しいマスキング機構を導入し,音素クラスと高い対応性を持つ特定の個別音声単位をマスキングする。
提案手法は,複数のVC手法間の絡み合いと変換性能を44%向上させ,客観的インテリジェンスを相対的に向上させる。
論文 参考訳(メタデータ) (2024-09-17T21:17:59Z) - The evaluation of a code-switched Sepedi-English automatic speech
recognition system [0.0]
本稿では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。
このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。
しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
論文 参考訳(メタデータ) (2024-03-11T15:11:28Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - DualVoice: Speech Interaction that Discriminates between Normal and
Whispered Voice Input [16.82591185507251]
発声コマンドと音声入力に必要なテキストを区別する簡単な方法はない。
記号やコマンドの入力も、それらがテキスト文字として誤解される可能性があるため、難しい。
本研究では,DualVoiceと呼ばれる音声対話手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T13:01:28Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features [6.872447420442981]
音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。
TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
論文 参考訳(メタデータ) (2021-08-04T06:22:12Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。