論文の概要: LIP: Lightweight Intelligent Preprocessor for meaningful text-to-speech
- arxiv url: http://arxiv.org/abs/2207.07118v1
- Date: Mon, 11 Jul 2022 18:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-24 11:37:47.885269
- Title: LIP: Lightweight Intelligent Preprocessor for meaningful text-to-speech
- Title(参考訳): LIP:有意義な音声合成のための軽量インテリジェントプリプロセッサ
- Authors: Harshvardhan Anand, Nansi Begam, Richa Verma, Sourav Ghosh,
Harichandana B.S.S, Sumit Kumar
- Abstract要約: 既存のTTS (Text-to-Speech) システムは、PII (Personal Identible Information) を持つメールから、絵文字や句読点のあるテキストメッセージへのメッセージを読む必要がある。
我々は、既存のTSシステムに下流に渡される前に、メッセージの可読性を高める軽量なインテリジェントプリプロセッサ(LIP)を導入する。
- 参考スコア(独自算出の注目度): 1.6894981060437155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing Text-to-Speech (TTS) systems need to read messages from the email
which may have Personal Identifiable Information (PII) to text messages that
can have a streak of emojis and punctuation. 92% of the world's online
population use emoji with more than 10 billion emojis sent everyday. Lack of
preprocessor leads to messages being read as-is including punctuation and
infographics like emoticons. This problem worsens if there is a continuous
sequence of punctuation/emojis that are quite common in real-world
communications like messaging, Social Networking Site (SNS) interactions, etc.
In this work, we aim to introduce a lightweight intelligent preprocessor (LIP)
that can enhance the readability of a message before being passed downstream to
existing TTS systems. We propose multiple sub-modules including: expanding
contraction, censoring swear words, and masking of PII, as part of our
preprocessor to enhance the readability of text. With a memory footprint of
only 3.55 MB and inference time of 4 ms for up to 50-character text, our
solution is suitable for real-time deployment. This work being the first of its
kind, we try to benchmark with an open independent survey, the result of which
shows 76.5% preference towards LIP enabled TTS engine as compared to standard
TTS.
- Abstract(参考訳): 既存のTTS (Text-to-Speech) システムは、PII (Personal Identible Information) を持つメールから、絵文字や句読点のあるテキストメッセージへのメッセージを読む必要がある。
世界のオンライン人口の92%が毎日100億以上の絵文字を送信している。
プリプロセッサの欠如は、句読点やエモティコンのようなインフォグラフィックを含むメッセージを読み取るのに繋がる。
この問題は、メッセージング、sns(social networking site)インタラクションなど、現実世界のコミュニケーションで非常に一般的な句読点/絵文字の連続的なシーケンスがある場合、さらに悪化する。
本研究では,既存のTSシステムに下流に渡される前に,メッセージの可読性を高める軽量なインテリジェントプリプロセッサ(LIP)を導入することを目的とする。
我々は,テキストの可読性を向上させるためのプリプロセッサの一部として,縮小の増大,誓い言葉の検閲,piiのマスキングを含む複数のサブモジュールを提案する。
メモリフットプリントがわずか3.55MBで、最大50文字のテキストで4msの推論時間を持つため、我々のソリューションはリアルタイムデプロイメントに適している。
この研究は、オープン・インディペンデント・サーベイでベンチマークを試み、その結果、標準のTSエンジンと比較して、LIPを有効にしたTSエンジンに対して76.5%の好意を示す。
関連論文リスト
- ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - emojiSpace: Spatial Representation of Emojis [0.0]
そこで本研究では,Python の Genism ライブラリから word2vec モデルを用いて,単語-絵文字を組み込んだ絵文字空間を構築した。
われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットで感情分析を実施して評価した。
論文 参考訳(メタデータ) (2022-09-12T13:57:31Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - VoiceMoji: A Novel On-Device Pipeline for Seamless Emoji Insertion in
Dictation [3.9610805867194867]
音声入力体験を充実させる新しいオンデバイスパイプラインを提案する。
書き起こされたテキストの塊が与えられたら、絵文字の挿入が意味のある構造をインテリジェントに処理し、識別する。
意味的テキスト分析によって各サブパートの絵文字を予測し,新しいアーキテクチャであるAttention-based Char Aware (ACA) LSTMを提案する。
論文 参考訳(メタデータ) (2021-12-22T16:54:57Z) - Assessing Emoji Use in Modern Text Processing Tools [35.79765461713127]
絵文字は視覚的魅力と人間の感情を鮮明に伝える能力から、デジタルコミュニケーションにおいてユビキタスになりつつある。
ソーシャルメディアや他のインスタントメッセージングにおける絵文字の普及は、絵文字を含むテキストを操作するシステムやツールの必要性も高まっている。
本研究では,絵文字を用いたツイートのテストセットを検討することで,このサポートを評価する。そこでは,著名なnlpおよびテキスト処理ツールが適切に処理できるかどうかについて,一連の実験を行う。
論文 参考訳(メタデータ) (2021-01-02T11:38:05Z) - Emoji Prediction: Extensions and Benchmarking [30.642840676899734]
絵文字予測タスクは、テキストに関連付けられた適切な絵文字セットを予測することを目的としている。
我々は、絵文字予測タスクの既存の設定を拡張し、よりリッチな絵文字セットを含め、複数ラベルの分類を可能にする。
トランスフォーマーネットワークに基づくマルチクラス・マルチラベル絵文字予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-07-14T22:41:20Z) - Word-Emoji Embeddings from large scale Messaging Data reflect real-world
Semantic Associations of Expressive Icons [7.032245866317618]
オンラインソーシャルネットワークJodelから得られた大規模メッセージングデータに単語絵文字の埋め込みを訓練する。
私たちのデータセットには4000万以上の文が含まれており、そのうち1100万の文がUnicode 13.0標準絵文字リストのサブセットで注釈付けされています。
論文 参考訳(メタデータ) (2020-05-19T19:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。