Fugu-MT 論文翻訳(概要): Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation

論文の概要: Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation

arxiv url: http://arxiv.org/abs/2403.04178v1
Date: Thu, 7 Mar 2024 03:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 15:26:06.217844
Title: Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation
Title（参考訳）: 音声音声機械翻訳におけるストレス伝達の試み
Authors: Sai Akarsh, Vamshi Raghusimha, Anindita Mondal, Anil Vuppala
Abstract要約: インドの教育分野における言語多様性は、インクリシティを阻害する重要な課題となっている。オンライン教育コンテンツによる知識の民主化にもかかわらず、英語の優位はアクセシビリティを制限している。既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらす。本稿では、インド英語のストレスアノテーションを用いたデータセットと、合成音声にストレスを組み込むことのできるテクスチャ・トゥ・スペーチ(TTS)アーキテクチャを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The language diversity in India's education sector poses a significant challenge, hindering inclusivity. Despite the democratization of knowledge through online educational content, the dominance of English, as the internet's lingua franca, limits accessibility, emphasizing the crucial need for translation into Indian languages. Despite existing Speech-to-Speech Machine Translation (SSMT) technologies, the lack of intonation in these systems gives monotonous translations, leading to a loss of audience interest and disengagement from the content. To address this, our paper introduces a dataset with stress annotations in Indian English and also a Text-to-Speech (TTS) architecture capable of incorporating stress into synthesized speech. This dataset is used for training a stress detection model, which is then used in the SSMT system for detecting stress in the source speech and transferring it into the target language speech. The TTS architecture is based on FastPitch and can modify the variances based on stressed words given. We present an Indian English-to-Hindi SSMT system that can transfer stress and aim to enhance the overall quality and engagement of educational content.
Abstract（参考訳）: インドの教育分野における言語多様性は、排他性を妨げる重要な課題となっている。オンライン教育コンテンツによる知識の民主化にもかかわらず、インターネットのリンガ・フランカのように英語の支配はアクセシビリティを制限し、インド語への翻訳の必要性を強調した。既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらし、視聴者の関心を失い、コンテンツから切り離された。そこで本研究では,インド英語のストレスアノテーションを用いたデータセットと,合成音声にストレスを組み込むことができるテクスト・トゥ・スペーチ(TTS)アーキテクチャを提案する。このデータセットは、ストレス検出モデルをトレーニングするために使用され、SSMTシステムでソース音声中のストレスを検出し、ターゲット言語音声に転送するために使用される。 ttsアーキテクチャはfastpitchをベースとしており、与えられた強調語に基づいて分散を変更できる。本稿では、ストレスを伝達し、教育コンテンツの全体的な品質とエンゲージメントを高めることを目的とした、インド英語とヒンディー語のSSMTシステムを提案する。

関連論文リスト

Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。 Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-11T17:41:01Z)
StressTransfer: Stress-Aware Speech-to-Speech Translation with Emphasis Preservation [10.037278049189073]
単語レベルの強調を保存したストレス対応音声音声合成システム(S2ST)を提案する。制御可能なTSモデルを誘導するターゲット言語タグへのソース言語ストレスについて検討した。
論文参考訳（メタデータ） (2025-10-15T06:32:24Z)
Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文参考訳（メタデータ） (2025-06-04T12:22:24Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文参考訳（メタデータ） (2024-01-28T06:27:17Z)
Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文参考訳（メタデータ） (2024-01-09T15:40:54Z)
Harnessing Pre-Trained Sentence Transformers for Offensive Language Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文参考訳（メタデータ） (2023-10-03T17:53:09Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
VAKTA-SETU: A Speech-to-Speech Machine Translation Service in Select Indic Languages [23.76977378957555]
英語・ヒンディー語・英語・マラティー語・ヒンディー語・マラティー語対のための音声音声合成システム(SSMT) 自動音声認識(ASR)、拡散補正(DC)、機械翻訳(MT)、テキスト音声合成(TTS)モデルをカスケードしてSSMTシステムの開発を行う。パイプラインのMT部分でも、英語、ヒンディー語、マラティー語を含む6つの翻訳方向すべてで、テキストからテキストへの機械翻訳(TTMT)サービスを作成しています。
論文参考訳（メタデータ） (2023-05-21T17:23:54Z)
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。 MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文参考訳（メタデータ） (2023-03-09T14:58:29Z)
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-27T11:24:40Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。