論文の概要: Improving speech translation by fusing speech and text
- arxiv url: http://arxiv.org/abs/2305.14042v1
- Date: Tue, 23 May 2023 13:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:09:30.600503
- Title: Improving speech translation by fusing speech and text
- Title(参考訳): 音声とテキストの融合による音声翻訳の改善
- Authors: Wenbiao Yin, Zhicheng Liu, Chengqi Zhao, Tao Wang, Jian Tong, Rong Ye
- Abstract要約: 異なるモダリティである音声とテキストの相補的な長所を利用する。
textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
- 参考スコア(独自算出の注目度): 24.31233927318388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speech translation, leveraging multimodal data to improve model
performance and address limitations of individual modalities has shown
significant effectiveness. In this paper, we harness the complementary
strengths of speech and text, which are disparate modalities. We observe three
levels of modality gap between them, denoted by Modal input representation,
Modal semantic, and Modal hidden states. To tackle these gaps, we propose
\textbf{F}use-\textbf{S}peech-\textbf{T}ext (\textbf{FST}), a cross-modal model
which supports three distinct input modalities for translation: speech, text,
and fused speech-text. We leverage multiple techniques for cross-modal
alignment and conduct a comprehensive analysis to assess its impact on speech
translation, machine translation, and fused speech-text translation. We
evaluate FST on MuST-C, GigaST, and newstest benchmark. Experiments show that
the proposed FST achieves an average 34.0 BLEU on MuST-C
En$\rightarrow$De/Es/Fr (vs SOTA +1.1 BLEU). Further experiments demonstrate
that FST does not degrade on MT task, as observed in prior works. Instead, it
yields an average improvement of 3.2 BLEU over the pre-trained MT model.
- Abstract(参考訳): 音声翻訳では,マルチモーダルデータの活用によるモデル性能の向上と個々のモーダルの対応限界が有意な効果を示した。
本稿では,異なるモーダル性を持つ音声とテキストの相補的強みを利用する。
それらの間のモダリティギャップの3つのレベルを観察し、モダリティ入力表現、モダリティ意味論、モダリティ隠れ状態によって表される。
これらのギャップに対処するために, 音声, テキスト, 融合音声文の3つの異なる入力モダリティをサポートするクロスモーダルモデルである \textbf{F}use-\textbf{S}peech-\textbf{T}ext (\textbf{FST})を提案する。
クロスモーダルアライメントのための複数の手法を活用し,その音声翻訳,機械翻訳,融合音声テキスト翻訳に与える影響を総合的に分析する。
我々は, MuST-C, GigaST, およびニューズテストベンチマークを用いてFSTを評価する。
実験の結果、提案されたFSTは MuST-C En$\rightarrow$De/Es/Fr (vs SOTA +1.1 BLEU)上で平均34.0 BLEUを達成することが示された。
さらなる実験により、FSTは以前の研究で見られるようにMTタスクでは劣化しないことが示された。
その代わり、事前訓練されたmtモデルよりも平均3.2 bleuが向上する。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Learning Shared Semantic Space for Speech-to-Text Translation [32.12445734213848]
テキスト機械翻訳(MT)とエンドツーエンド音声翻訳(ST)のモダリティギャップを埋める手法を提案する。
音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTタスクとSTタスクを統一する。
特に、チメラはEN-DEで26.3 BLEUを取得し、SOTAを+2.7 BLEUマージンで改善した。
論文 参考訳(メタデータ) (2021-05-07T07:49:56Z) - End-to-end Speech Translation via Cross-modal Progressive Training [12.916100727707809]
Cross Speech-Text Network (XSTNet) は、音声からテキストへの翻訳のためのエンドツーエンドモデルである。
xstnetは音声とテキストの両方を入力とし、転写と翻訳の両方のテキストを出力する。
XSTNet は、平均 BLEU が 27.8 である3つの言語方向の最先端の結果を達成し、以前のベストメソッドを 3.7 BLEU で上回っている。
論文 参考訳(メタデータ) (2021-04-21T06:44:31Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。