Fugu-MT 論文翻訳(概要): Large Vocabulary Spontaneous Speech Recognition for Tigrigna

論文の概要: Large Vocabulary Spontaneous Speech Recognition for Tigrigna

arxiv url: http://arxiv.org/abs/2402.04254v1
Date: Sun, 15 Oct 2023 13:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-11 15:27:59.742458
Title: Large Vocabulary Spontaneous Speech Recognition for Tigrigna
Title（参考訳）: Tigrigna に対する大語彙自発音声認識
Authors: Ataklti Kahsu, Solomon Teferra
Abstract要約: 本論文は、Tigrignaのための話者独立自動音声認識システムを設計・開発する試みについて述べる。音声認識システムの音響モデルはカーネギーメロン大学自動音声認識開発ツール(Sphinx)を用いて開発され、SRIMツールは言語モデルの開発に使用される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This thesis proposes and describes a research attempt at designing and developing a speaker independent spontaneous automatic speech recognition system for Tigrigna The acoustic model of the Speech Recognition System is developed using Carnegie Mellon University Automatic Speech Recognition development tool (Sphinx) while the SRIM tool is used for the development of the language model. Keywords Automatic Speech Recognition Tigrigna language
Abstract（参考訳）: 本論文は, 言語モデルの開発にスリムツールが用いられる間, カーネギーメロン大学自動音声認識開発ツール (sphinx) を用いて音声認識システムの音響モデルを開発した。キーワード自動音声認識ティグリグナ言語

関連論文リスト

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文参考訳（メタデータ） (2024-04-25T12:03:14Z)
Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文参考訳（メタデータ） (2023-09-27T17:21:13Z)
SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文参考訳（メタデータ） (2023-08-31T12:53:09Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。 Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文参考訳（メタデータ） (2022-03-24T07:15:24Z)
Lexical Access Model for Italian -- Modeling human speech processing: identification of words in running speech toward lexical access based on the detection of landmarks and other acoustic cues to features [2.033475676482581]
本研究の目的は、発話中の単語を識別する際、人間を模倣するシステムを開発することである。我々はスティーブンスの語彙アクセスモデルに基づくイタリア語の音声認識システムを構築した。
論文参考訳（メタデータ） (2021-06-24T10:54:56Z)
A Machine of Few Words -- Interactive Speaker Recognition with Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-08-07T12:44:08Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。