論文の概要: Learning Shared Semantic Space for Speech-to-Text Translation
- arxiv url: http://arxiv.org/abs/2105.03095v1
- Date: Fri, 7 May 2021 07:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:20:38.969175
- Title: Learning Shared Semantic Space for Speech-to-Text Translation
- Title(参考訳): 音声-テキスト翻訳のための共有意味空間の学習
- Authors: Chi Han, Mingxuan Wang, Heng Ji, Lei Li
- Abstract要約: テキスト機械翻訳(MT)とエンドツーエンド音声翻訳(ST)のモダリティギャップを埋める手法を提案する。
音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTタスクとSTタスクを統一する。
特に、チメラはEN-DEで26.3 BLEUを取得し、SOTAを+2.7 BLEUマージンで改善した。
- 参考スコア(独自算出の注目度): 32.12445734213848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having numerous potential applications and great impact, end-to-end speech
translation (ST) has long been treated as an independent task, failing to fully
draw strength from the rapid advances of its sibling - text machine translation
(MT). With text and audio inputs represented differently, the modality gap has
rendered MT data and its end-to-end models incompatible with their ST
counterparts. In observation of this obstacle, we propose to bridge this
representation gap with Chimera. By projecting audio and text features to a
common semantic representation, Chimera unifies MT and ST tasks and boosts the
performance on ST benchmark, MuST-C, to a new state-of-the-art. Specifically,
Chimera obtains 26.3 BLEU on EN-DE, improving the SOTA by a +2.7 BLEU margin.
Further experimental analyses demonstrate that the shared semantic space indeed
conveys common knowledge between these two tasks and thus paves a new way for
augmenting training resources across modalities.
- Abstract(参考訳): 多くの潜在的な応用と大きな影響があり、エンドツーエンド音声翻訳(st)は長い間独立したタスクとして扱われてきたが、兄弟姉妹であるテキスト機械翻訳(mt)の急速な進歩から強みを引き出すことに失敗した。
テキストと音声の入力が異なる方法では、モダリティギャップはMTデータとそのエンドツーエンドモデルとSTモデルとの互換性を損なう。
この障害を観測するために,この表現ギャップをキメラに橋渡しすることを提案する。
音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTとSTタスクを統一し、STベンチマークの MuST-C のパフォーマンスを新たな最先端に向上させる。
具体的には、キメラは en-de に 26.3 bleu を取得し、sota を +2.7 bleu マージンで改善する。
さらに実験的に、共有意味空間は、これらの2つのタスク間の共通知識を実際に伝達し、モダリティを越えてトレーニングリソースを増強する新しい方法を示す。
関連論文リスト
- Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - DUB: Discrete Unit Back-translation for Speech Translation [32.74997208667928]
我々は2つの質問に答えるために、離散単位逆変換(DUB)を提案する: 直接STにおける連続的な特徴よりも、離散単位による音声を表現する方がよいか?
DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。
低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T03:48:16Z) - Understanding and Bridging the Modality Gap for Speech Translation [11.13240570688547]
マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
論文 参考訳(メタデータ) (2023-05-15T15:09:18Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。