論文の概要: Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation
- arxiv url: http://arxiv.org/abs/2403.04178v1
- Date: Thu, 7 Mar 2024 03:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:26:06.217844
- Title: Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation
- Title(参考訳): 音声音声機械翻訳におけるストレス伝達の試み
- Authors: Sai Akarsh, Vamshi Raghusimha, Anindita Mondal, Anil Vuppala
- Abstract要約: インドの教育分野における言語多様性は、インクリシティを阻害する重要な課題となっている。
オンライン教育コンテンツによる知識の民主化にもかかわらず、英語の優位はアクセシビリティを制限している。
既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらす。
本稿では、インド英語のストレスアノテーションを用いたデータセットと、合成音声にストレスを組み込むことのできるテクスチャ・トゥ・スペーチ(TTS)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The language diversity in India's education sector poses a significant
challenge, hindering inclusivity. Despite the democratization of knowledge
through online educational content, the dominance of English, as the internet's
lingua franca, limits accessibility, emphasizing the crucial need for
translation into Indian languages. Despite existing Speech-to-Speech Machine
Translation (SSMT) technologies, the lack of intonation in these systems gives
monotonous translations, leading to a loss of audience interest and
disengagement from the content. To address this, our paper introduces a dataset
with stress annotations in Indian English and also a Text-to-Speech (TTS)
architecture capable of incorporating stress into synthesized speech. This
dataset is used for training a stress detection model, which is then used in
the SSMT system for detecting stress in the source speech and transferring it
into the target language speech. The TTS architecture is based on FastPitch and
can modify the variances based on stressed words given. We present an Indian
English-to-Hindi SSMT system that can transfer stress and aim to enhance the
overall quality and engagement of educational content.
- Abstract(参考訳): インドの教育分野における言語多様性は、排他性を妨げる重要な課題となっている。
オンライン教育コンテンツによる知識の民主化にもかかわらず、インターネットのリンガ・フランカのように英語の支配はアクセシビリティを制限し、インド語への翻訳の必要性を強調した。
既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらし、視聴者の関心を失い、コンテンツから切り離された。
そこで本研究では,インド英語のストレスアノテーションを用いたデータセットと,合成音声にストレスを組み込むことができるテクスト・トゥ・スペーチ(TTS)アーキテクチャを提案する。
このデータセットは、ストレス検出モデルをトレーニングするために使用され、SSMTシステムでソース音声中のストレスを検出し、ターゲット言語音声に転送するために使用される。
ttsアーキテクチャはfastpitchをベースとしており、与えられた強調語に基づいて分散を変更できる。
本稿では、ストレスを伝達し、教育コンテンツの全体的な品質とエンゲージメントを高めることを目的とした、インド英語とヒンディー語のSSMTシステムを提案する。
関連論文リスト
- MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。
本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文 参考訳(メタデータ) (2024-01-28T06:27:17Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - VAKTA-SETU: A Speech-to-Speech Machine Translation Service in Select
Indic Languages [23.76977378957555]
英語・ヒンディー語・英語・マラティー語・ヒンディー語・マラティー語対のための音声音声合成システム(SSMT)
自動音声認識(ASR)、拡散補正(DC)、機械翻訳(MT)、テキスト音声合成(TTS)モデルをカスケードしてSSMTシステムの開発を行う。
パイプラインのMT部分でも、英語、ヒンディー語、マラティー語を含む6つの翻訳方向すべてで、テキストからテキストへの機械翻訳(TTMT)サービスを作成しています。
論文 参考訳(メタデータ) (2023-05-21T17:23:54Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。