論文の概要: Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.15469v1
- Date: Wed, 20 Mar 2024 08:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:41:56.474105
- Title: Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning
- Title(参考訳): 音素数比Reward-based Reinforcement Learningを用いた等角的ニューラルネットワーク翻訳
- Authors: Shivam Ratnakant Mhaskar, Nirmesh J. Shah, Mohammadi Zaki, Ashishkumar P. Gudmalwar, Pankaj Wasnik, Rajiv Ratn Shah,
- Abstract要約: 本稿では,Reinforcement Learning (RL) を用いた等尺的NMTシステムの開発について述べる。
提案モデルを評価するため,長さコンプライアンス尺度であるPhonme Count Compliance(PCC)スコアを提案する。
提案手法は,英語-ヒンディー語対に適用した場合の最先端モデルと比較して,PCCスコアが約36%向上したことを示す。
- 参考スコア(独自算出の注目度): 31.26989690734889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Automatic Video Dubbing (AVD) pipeline consists of three key modules, namely, Automatic Speech Recognition (ASR), Neural Machine Translation (NMT), and Text-to-Speech (TTS). Within AVD pipelines, isometric-NMT algorithms are employed to regulate the length of the synthesized output text. This is done to guarantee synchronization with respect to the alignment of video and audio subsequent to the dubbing process. Previous approaches have focused on aligning the number of characters and words in the source and target language texts of Machine Translation models. However, our approach aims to align the number of phonemes instead, as they are closely associated with speech duration. In this paper, we present the development of an isometric NMT system using Reinforcement Learning (RL), with a focus on optimizing the alignment of phoneme counts in the source and target language sentence pairs. To evaluate our models, we propose the Phoneme Count Compliance (PCC) score, which is a measure of length compliance. Our approach demonstrates a substantial improvement of approximately 36% in the PCC score compared to the state-of-the-art models when applied to English-Hindi language pairs. Moreover, we propose a student-teacher architecture within the framework of our RL approach to maintain a trade-off between the phoneme count and translation quality.
- Abstract(参考訳): 従来のAVDパイプラインは、ASR(Automatic Speech Recognition)、NMT(Neural Machine Translation)、TTS(Text-to-Speech)という3つの重要なモジュールで構成されている。
AVDパイプライン内では、Isometric-NMTアルゴリズムを用いて合成された出力テキストの長さを調節する。
これは、ダビング処理後のビデオとオーディオのアライメントに関して同期を保証するために行われる。
従来のアプローチでは、機械翻訳モデルのソースおよびターゲット言語テキスト中の文字数と単語数の調整に重点を置いてきた。
しかし,提案手法は,音声の持続時間に密接に関連しているため,音素数を調整することを目的としている。
本稿では,RL(Reinforcement Learning)を用いた等角的NMTシステムの開発について述べる。
提案モデルを評価するため,長さコンプライアンス尺度であるPhonme Count Compliance(PCC)スコアを提案する。
提案手法は,英語-ヒンディー語対に適用した場合の最先端モデルと比較して,PCCスコアが約36%向上したことを示す。
さらに、音素数と翻訳品質のトレードオフを維持するために、RLアプローチの枠組みの中で学生-教師アーキテクチャを提案する。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文 参考訳(メタデータ) (2024-05-03T14:25:21Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - IsometricMT: Neural Machine Translation for Automatic Dubbing [9.605781943224251]
この研究は、トランスフォーマーモデルが直接学習して、ソース長と密接に一致する出力を生成することができる自己学習アプローチを導入している。
TED Talkデータに基づく4つの言語対と公開ベンチマークの結果を報告する。
論文 参考訳(メタデータ) (2021-12-16T08:03:20Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。