論文の概要: VoiceMoji: A Novel On-Device Pipeline for Seamless Emoji Insertion in
Dictation
- arxiv url: http://arxiv.org/abs/2112.12028v1
- Date: Wed, 22 Dec 2021 16:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 14:39:59.537498
- Title: VoiceMoji: A Novel On-Device Pipeline for Seamless Emoji Insertion in
Dictation
- Title(参考訳): voicemoji:ディクテーション中の絵文字をシームレスに挿入する新しいオンデバイスパイプライン
- Authors: Sumit Kumar, Harichandana B S S, and Himanshu Arora
- Abstract要約: 音声入力体験を充実させる新しいオンデバイスパイプラインを提案する。
書き起こされたテキストの塊が与えられたら、絵文字の挿入が意味のある構造をインテリジェントに処理し、識別する。
意味的テキスト分析によって各サブパートの絵文字を予測し,新しいアーキテクチャであるAttention-based Char Aware (ACA) LSTMを提案する。
- 参考スコア(独自算出の注目度): 3.9610805867194867
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most of the speech recognition systems recover only words in the speech and
fail to capture emotions. Users have to manually add emoji(s) in text for
adding tone and making communication fun. Though there is much work done on
punctuation addition on transcribed speech, the area of emotion addition is
untouched. In this paper, we propose a novel on-device pipeline to enrich the
voice input experience. It involves, given a blob of transcribed text,
intelligently processing and identifying structure where emoji insertion makes
sense. Moreover, it includes semantic text analysis to predict emoji for each
of the sub-parts for which we propose a novel architecture Attention-based Char
Aware (ACA) LSTM which handles Out-Of-Vocabulary (OOV) words as well. All these
tasks are executed completely on-device and hence can aid on-device dictation
systems. To the best of our knowledge, this is the first work that shows how to
add emoji(s) in the transcribed text. We demonstrate that our components
achieve comparable results to previous neural approaches for punctuation
addition and emoji prediction with 80% fewer parameters. Overall, our proposed
model has a very small memory footprint of a mere 4MB to suit on-device
deployment.
- Abstract(参考訳): ほとんどの音声認識システムは、音声中の単語のみを復元し、感情を捉えない。
ユーザーはテキストに絵文字を手動で追加し、トーンを追加してコミュニケーションを楽しむ必要がある。
書き起こされた音声の句読上げには多くの作業があるが、感情追加の領域は触れられていない。
本稿では,音声入力体験を充実させる新しいオンデバイスパイプラインを提案する。
書き起こされたテキストの塊が与えられたら、絵文字の挿入が意味のある構造をインテリジェントに処理し、識別する。
さらに,新たなアーキテクチャであるAttention-based Char Aware (ACA) LSTMを提案するサブパートごとの絵文字のセマンティックテキスト解析を行い,Of-Vocabulary (OOV) ワードも扱う。
これらのタスクはすべてデバイス上で完全に実行されるため、デバイス上のディクテーションシステムを支援することができる。
私たちの知る限りでは、転写されたテキストに絵文字を追加する方法を示す最初の作品です。
我々は,句読点付加と絵文字予測のための従来のニューラルアプローチと同等の結果を80%少ないパラメータで達成できることを実証した。
全体として、私たちの提案するモデルは、オンデバイスデプロイメントに適したメモリフットプリントがわずか4mbと非常に小さいです。
関連論文リスト
- ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - emojiSpace: Spatial Representation of Emojis [0.0]
そこで本研究では,Python の Genism ライブラリから word2vec モデルを用いて,単語-絵文字を組み込んだ絵文字空間を構築した。
われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットで感情分析を実施して評価した。
論文 参考訳(メタデータ) (2022-09-12T13:57:31Z) - LIP: Lightweight Intelligent Preprocessor for meaningful text-to-speech [1.6894981060437155]
既存のTTS (Text-to-Speech) システムは、PII (Personal Identible Information) を持つメールから、絵文字や句読点のあるテキストメッセージへのメッセージを読む必要がある。
我々は、既存のTSシステムに下流に渡される前に、メッセージの可読性を高める軽量なインテリジェントプリプロセッサ(LIP)を導入する。
論文 参考訳(メタデータ) (2022-07-11T18:42:52Z) - Emojich -- zero-shot emoji generation using Russian language: a
technical report [52.77024349608834]
エモジッチ(Emojich)は、ロシア語の字幕を条件として絵文字を生成するテキスト・画像ニューラルネットワークである。
我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を維持することを目的としている。
論文 参考訳(メタデータ) (2021-12-04T23:37:32Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Emoji-aware Co-attention Network with EmoGraph2vec Model for Sentiment
Anaylsis [9.447106020795292]
我々はEmoGraph2vecと呼ばれる絵文字表現を学習し、絵文字対応のコアテンションネットワークを設計する手法を提案する。
我々のモデルは、テキストと絵文字を組み込むコアテンション機構を設計し、圧縮と励起ブロックを畳み込みニューラルネットワークに統合する。
実験結果から,提案モデルは,ベンチマークデータセットの感情分析において,いくつかのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2021-10-27T08:01:10Z) - Assessing Emoji Use in Modern Text Processing Tools [35.79765461713127]
絵文字は視覚的魅力と人間の感情を鮮明に伝える能力から、デジタルコミュニケーションにおいてユビキタスになりつつある。
ソーシャルメディアや他のインスタントメッセージングにおける絵文字の普及は、絵文字を含むテキストを操作するシステムやツールの必要性も高まっている。
本研究では,絵文字を用いたツイートのテストセットを検討することで,このサポートを評価する。そこでは,著名なnlpおよびテキスト処理ツールが適切に処理できるかどうかについて,一連の実験を行う。
論文 参考訳(メタデータ) (2021-01-02T11:38:05Z) - Emoji Prediction: Extensions and Benchmarking [30.642840676899734]
絵文字予測タスクは、テキストに関連付けられた適切な絵文字セットを予測することを目的としている。
我々は、絵文字予測タスクの既存の設定を拡張し、よりリッチな絵文字セットを含め、複数ラベルの分類を可能にする。
トランスフォーマーネットワークに基づくマルチクラス・マルチラベル絵文字予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-07-14T22:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。