論文の概要: Representation Purification for End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2412.04266v1
- Date: Thu, 05 Dec 2024 15:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:39:50.154888
- Title: Representation Purification for End-to-End Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳のための表現浄化
- Authors: Chengwei Zhang, Yue Zhou, Rui Zhao, Yidong Chen, Xiaodong Shi,
- Abstract要約: 音声からテキストへの変換(英語: Speech-to-text translation, ST)とは、音声を別の言語でテキストに変換する作業である。
我々は,コンテンツに依存しない要素とコンテンツ関連要因の組み合わせとして,音声表現を概念化する。
- 参考スコア(独自算出の注目度): 16.967317436711113
- License:
- Abstract: Speech-to-text translation (ST) is a cross-modal task that involves converting spoken language into text in a different language. Previous research primarily focused on enhancing speech translation by facilitating knowledge transfer from machine translation, exploring various methods to bridge the gap between speech and text modalities. Despite substantial progress made, factors in speech that are not relevant to translation content, such as timbre and rhythm, often limit the efficiency of knowledge transfer. In this paper, we conceptualize speech representation as a combination of content-agnostic and content-relevant factors. We examine the impact of content-agnostic factors on translation performance through preliminary experiments and observe a significant performance deterioration when content-agnostic perturbations are introduced to speech signals. To address this issue, we propose a \textbf{S}peech \textbf{R}epresentation \textbf{P}urification with \textbf{S}upervision \textbf{E}nhancement (SRPSE) framework, which excludes the content-agnostic components within speech representations to mitigate their negative impact on ST. Experiments on MuST-C and CoVoST-2 datasets demonstrate that SRPSE significantly improves translation performance across all translation directions in three settings and achieves preeminent performance under a \textit{transcript-free} setting.
- Abstract(参考訳): 音声からテキストへの変換(英語: Speech-to-text translation, ST)とは、音声を別の言語でテキストに変換する作業である。
従来の研究は、機械翻訳からの知識伝達を容易にし、音声とテキストのモダリティのギャップを埋める様々な方法を探求することで、音声翻訳の強化に重点を置いていた。
かなりの進歩があったにも拘わらず、音色やリズムのような翻訳内容に関係のない言葉の要素は、しばしば知識伝達の効率を制限している。
本稿では、コンテンツに依存しない要素とコンテンツ関連要因の組み合わせとして、音声表現を概念化する。
予備実験により内容非依存要因が翻訳性能に与える影響について検討し, 音声信号に内容非依存摂動を導入した場合, 顕著な性能劣化を観察する。
この問題に対処するため, 音声表現に含まれる内容に依存しないコンポーネントを除外し, 音声表現のSTに対する悪影響を軽減するためのフレームワークである。 MuST-C と CoVoST-2 のデータセットに対する実験により, SRPSE は3つの設定ですべての翻訳方向の翻訳性能を大幅に改善し, \textbf{S}upervision \textbf{E}nhancement (SRPSE) を組み込んだ \textbf{S}peech \textbf{R}epresentation \textbf{P}urification を提案する。
関連論文リスト
- Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody? [7.682929772871941]
韻律は音声からテキストへの翻訳システムの中ではほとんど研究されない。
エンドツーエンド(E2E)システムは、翻訳決定を行う際に音声信号に直接アクセスする。
主な課題は、翻訳における韻律認識を評価することの難しさである。
論文 参考訳(メタデータ) (2024-10-31T15:20:50Z) - Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP [46.53595526049201]
CLIPのようなVision-Language Models (VLM)内のテキストエンコーダは、画像と共有する埋め込み空間へのテキスト入力の変換において重要な役割を果たす。
解釈可能なテキスト埋め込み(SToRI)を構築するためのセマンティックトークン再重み付けフレームワークを提案する。
SToRIは文脈的重要性に基づいて意味的要素を差分重み付けすることでCLIPのテキスト符号化プロセスを洗練する。
論文 参考訳(メタデータ) (2024-10-11T02:42:13Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。