論文の概要: PerSpeechNorm: A Persian Toolkit for Speech Processing Normalization
- arxiv url: http://arxiv.org/abs/2111.03470v1
- Date: Mon, 1 Nov 2021 17:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-14 15:44:28.802994
- Title: PerSpeechNorm: A Persian Toolkit for Speech Processing Normalization
- Title(参考訳): perspeechnorm: ペルシャ語の音声処理正規化ツールキット
- Authors: Romina Oji, Seyedeh Fatemeh Razavi, Sajjad Abdi Dehsorkh, Alireza
Hariri, Hadi Asheri, Reshad Hosseini
- Abstract要約: 音声認識におけるテキスト処理のためのオープンソース正規化ツールキットを提案する。
我々は、記号(共通通貨、#、@、URLなど)、数字(日付、時間、電話番号、国定コードなど)など、さまざまな可読性ペルシア文字について検討する。
- 参考スコア(独自算出の注目度): 2.9523182651915234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In general, speech processing models consist of a language model along with
an acoustic model. Regardless of the language model's complexity and variants,
three critical pre-processing steps are needed in language models: cleaning,
normalization, and tokenization. Among mentioned steps, the normalization step
is so essential to format unification in pure textual applications. However,
for embedded language models in speech processing modules, normalization is not
limited to format unification. Moreover, it has to convert each readable
symbol, number, etc., to how they are pronounced. To the best of our knowledge,
there is no Persian normalization toolkits for embedded language models in
speech processing modules, So in this paper, we propose an open-source
normalization toolkit for text processing in speech applications. Briefly, we
consider different readable Persian text like symbols (common currencies, #, @,
URL, etc.), numbers (date, time, phone number, national code, etc.), and so on.
Comparison with other available Persian textual normalization tools indicates
the superiority of the proposed method in speech processing. Also, comparing
the model's performance for one of the proposed functions (sentence separation)
with other common natural language libraries such as HAZM and Parsivar
indicates the proper performance of the proposed method. Besides, its
evaluation of some Persian Wikipedia data confirms the proper performance of
the proposed method.
- Abstract(参考訳): 一般に、音声処理モデルは音響モデルとともに言語モデルで構成される。
言語モデルの複雑さとバリエーションに関わらず、クリーニング、正規化、トークン化という3つの重要な前処理ステップが言語モデルで必要である。
上述のステップの中で、正規化ステップは、純粋なテキストアプリケーションで統一されたフォーマットに不可欠である。
しかし、音声処理モジュールの組み込み言語モデルでは、正規化は形式統一に限定されない。
さらに、読みやすいシンボル、番号等を、どのように発音するかに変換する必要がある。
音声処理モジュールに組み込み言語モデルのためのペルシア正規化ツールキットは存在しないので,本論文では,音声処理におけるテキスト処理のためのオープンソース正規化ツールキットを提案する。
簡潔に言えば、記号(普通通貨、#、@、urlなど)、数字(日付、時間、電話番号、国定コードなど)といった異なる読みやすいペルシア語のテキストを考える。
他のペルシア語テキスト正規化ツールとの比較は、音声処理における提案手法の優位性を示している。
また,提案した関数の1つ(文分離)に対するモデルの性能を,HAZMやParsivarといった他の共通自然言語ライブラリと比較すると,提案手法の適切な性能を示す。
さらに,ペルシャ語ウィキペディアデータの評価により,提案手法の適切な性能が確認された。
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Controllable Speaking Styles Using a Large Language Model [13.642358232817342]
Text-to-Speech (TTS) モデルは、同じターゲットテキストの複数の、韻律的に異なる変換を生成することができる。
現在、推論中にこれらのモデルを制御するには、一般的に適切な参照発話を見つける必要がある。
ここでは、話し方の制御と、ある対話文脈に適した韻律の2つの実演を行う。
論文 参考訳(メタデータ) (2023-05-17T16:01:50Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。