論文の概要: Enhancing End-to-End Conversational Speech Translation Through Target
Language Context Utilization
- arxiv url: http://arxiv.org/abs/2309.15686v1
- Date: Wed, 27 Sep 2023 14:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:25:09.814720
- Title: Enhancing End-to-End Conversational Speech Translation Through Target
Language Context Utilization
- Title(参考訳): 目的言語コンテキスト活用による会話音声翻訳のエンドツーエンド化
- Authors: Amir Hussein, Brian Yan, Antonios Anastasopoulos, Shinji Watanabe,
Sanjeev Khudanpur
- Abstract要約: E2E-STにターゲット言語コンテキストを導入し,コヒーレンスを高め,拡張された音声セグメントのメモリ制約を克服する。
提案した文脈的E2E-STは、孤立発話に基づくE2E-STアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 73.85027121522295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Incorporating longer context has been shown to benefit machine translation,
but the inclusion of context in end-to-end speech translation (E2E-ST) remains
under-studied. To bridge this gap, we introduce target language context in
E2E-ST, enhancing coherence and overcoming memory constraints of extended audio
segments. Additionally, we propose context dropout to ensure robustness to the
absence of context, and further improve performance by adding speaker
information. Our proposed contextual E2E-ST outperforms the isolated
utterance-based E2E-ST approach. Lastly, we demonstrate that in conversational
speech, contextual information primarily contributes to capturing context
style, as well as resolving anaphora and named entities.
- Abstract(参考訳): より長い文脈を組み込むことは機械翻訳に役立つことが示されているが、エンドツーエンドの音声翻訳(e2e-st)における文脈の包含は未検討のままである。
このギャップを埋めるため、e2e-stでターゲット言語コンテキストを導入し、拡張オーディオセグメントのコヒーレンスとメモリ制約を克服する。
さらに,コンテキストの欠如に対するロバスト性を確保するためにコンテキストドロップアウトを提案し,話者情報の追加によるパフォーマンス向上を図る。
提案した文脈的E2E-STは、孤立発話に基づくE2E-STアプローチよりも優れている。
最後に,会話音声において,文脈情報は主に文脈の捉え方やアナフォラや名前付きエンティティの解決に寄与することを示す。
関連論文リスト
- Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Long-form Simultaneous Speech Translation: Thesis Proposal [3.252719444437546]
同時音声翻訳 (SST) は, 話者が文を終了する前であっても, 発話言語をリアルタイムに翻訳することを目的としている。
ディープラーニングはエンドツーエンド(E2E)システムに大きな関心を呼んだ。
この論文の提案は、特にロングフォーム設定において、エンドツーエンドの同時音声翻訳に対処する。
論文 参考訳(メタデータ) (2023-10-17T10:44:05Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文 参考訳(メタデータ) (2021-12-13T15:49:36Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information [33.79855927394387]
音声強調のための追加情報として,音節属性の文脈情報について検討する。
本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。
その結果,文脈的BPC情報によりSE性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-11-15T03:56:37Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Contextual Neural Machine Translation Improves Translation of Cataphoric
Pronouns [50.245845110446496]
本研究では,将来の文脈で訓練された文脈的NMTモデルの性能と過去の文脈で訓練された文脈とを比較し,文脈としての将来の文の効果について検討する。
提案手法は, 文脈に依存しないトランスフォーマーよりも, 将来的な文脈の活用が著しく向上することを示し, 汎用的および代名詞的自動測定を用いた実験と評価を行った。
論文 参考訳(メタデータ) (2020-04-21T10:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。