論文の概要: Soft Alignment of Modality Space for End-to-end Speech Translation
- arxiv url: http://arxiv.org/abs/2312.10952v1
- Date: Mon, 18 Dec 2023 06:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:18:48.186965
- Title: Soft Alignment of Modality Space for End-to-end Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳におけるモーダリティ空間のソフトアライメント
- Authors: Yuhao Zhang, Kaiqi Kou, Bei Li, Chen Xu, Chunliang Zhang, Tong Xiao,
Jingbo Zhu
- Abstract要約: エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
- 参考スコア(独自算出の注目度): 49.29045524083467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Speech Translation (ST) aims to convert speech into target text
within a unified model. The inherent differences between speech and text
modalities often impede effective cross-modal and cross-lingual transfer.
Existing methods typically employ hard alignment (H-Align) of individual speech
and text segments, which can degrade textual representations. To address this,
we introduce Soft Alignment (S-Align), using adversarial training to align the
representation spaces of both modalities. S-Align creates a modality-invariant
space while preserving individual modality quality. Experiments on three
languages from the MuST-C dataset show S-Align outperforms H-Align across
multiple tasks and offers translation capabilities on par with specialized
translation models.
- Abstract(参考訳): エンドツーエンド音声翻訳(ST)は、統一されたモデル内で音声をターゲットテキストに変換することを目的としている。
音声とテキストのモダリティに固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの転送を妨げる。
既存の手法は通常、個々の音声とテキストセグメントのハードアライメント(H-Align)を使用し、テキスト表現を劣化させる。
これに対処するために,両様相の表現空間の整列化に逆訓練を用いたソフトアライメント(s-align)を導入する。
s-アラングは個々のモダリティ品質を維持しながらモダリティ不変空間を作る。
MuST-Cデータセットによる3つの言語の実験では、複数のタスクでS-AlignがH-Alignより優れており、特殊な翻訳モデルと同等の翻訳機能を提供する。
関連論文リスト
- Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。