論文の概要: Usefulness of Emotional Prosody in Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2404.17968v1
- Date: Sat, 27 Apr 2024 18:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 18:22:24.245418
- Title: Usefulness of Emotional Prosody in Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳における感情韻律の有用性
- Authors: Charles Brazier, Jean-Luc Rouas,
- Abstract要約: 本稿では,音声中の感情を自動的に認識する外部ソースを追加することで,翻訳品質を向上させることを提案する。
この研究は、各感情が感情の重なり合う特定の語彙と関連しているという仮定によって動機付けられている。
NMTシステムに感情情報、特に覚醒情報を統合することで、より良い翻訳が可能になることを示す。
- 参考スコア(独自算出の注目度): 1.0205541448656992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) is the task of translating a text from one language to another with the use of a trained neural network. Several existing works aim at incorporating external information into NMT models to improve or control predicted translations (e.g. sentiment, politeness, gender). In this work, we propose to improve translation quality by adding another external source of information: the automatically recognized emotion in the voice. This work is motivated by the assumption that each emotion is associated with a specific lexicon that can overlap between emotions. Our proposed method follows a two-stage procedure. At first, we select a state-of-the-art Speech Emotion Recognition (SER) model to predict dimensional emotion values from all input audio in the dataset. Then, we use these predicted emotions as source tokens added at the beginning of input texts to train our NMT model. We show that integrating emotion information, especially arousal, into NMT systems leads to better translations.
- Abstract(参考訳): ニューラルネットワーク(Neural Machine Translation, NMT)は、訓練されたニューラルネットワークを用いて、ある言語から別の言語にテキストを翻訳するタスクである。
既存のいくつかの研究は、予測翻訳(例えば、感情、丁寧さ、性別)を改善し、制御するために、NMTモデルに外部情報を統合することを目的としている。
本研究では,音声中の感情を自動的に認識する外部情報ソースを追加することで,翻訳品質を向上させることを提案する。
この研究は、各感情が感情の重なり合う特定の語彙と関連しているという仮定によって動機付けられている。
提案手法は2段階の手順に従う。
まず,現在最先端の音声感情認識(SER)モデルを選択し,データセット内のすべての入力音声から次元的感情値を予測する。
次に、これらの予測された感情を入力テキストの先頭に付加されたソーストークンとして使用し、NMTモデルをトレーニングする。
NMTシステムに感情情報、特に覚醒情報を統合することで、より良い翻訳が可能になることを示す。
関連論文リスト
- Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Challenges in Translation of Emotions in Multilingual User-Generated
Content: Twitter as a Case Study [1.3999481573773072]
異なる言語における感情の翻訳において,Twitterデータに特有の言語現象が存在することを示す。
また、テキスト中の感情の保存に関して、MTシステムの性能を評価するためによく使われる手法の能力を評価する。
論文 参考訳(メタデータ) (2021-06-20T16:12:48Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z) - Annotation of Emotion Carriers in Personal Narratives [69.07034604580214]
我々は、個人的物語(PN) - 話されたり書かれたり - 事実、出来事、思考の記憶 - を理解する問題に興味を持っている。
PNでは、感情担体(英: emotion carriers)は、ユーザの感情状態を最もよく説明する音声またはテキストセグメントである。
本研究は,音声対話における感情担持者を特定するためのアノテーションモデルを提案し,評価する。
論文 参考訳(メタデータ) (2020-02-27T15:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。