論文の概要: Cross-modal Contrastive Learning for Speech Translation
- arxiv url: http://arxiv.org/abs/2205.02444v1
- Date: Thu, 5 May 2022 05:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 14:51:46.671214
- Title: Cross-modal Contrastive Learning for Speech Translation
- Title(参考訳): 音声翻訳のためのクロスモーダルコントラスト学習
- Authors: Rong Ye, Mingxuan Wang, Lei Li
- Abstract要約: ConSTは、エンドツーエンドの音声からテキストへの翻訳のための、モーダルなコントラスト学習手法である。
実験の結果、提案されたConSTは、以前の方法よりも一貫して優れていた。
その学習表現は、モーダル音声テキスト検索の精度を4%から88%に向上させる。
- 参考スコア(独自算出の注目度): 36.63604508886932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we learn unified representations for spoken utterances and their
written text? Learning similar representations for semantically similar speech
and text is important for speech translation. To this end, we propose ConST, a
cross-modal contrastive learning method for end-to-end speech-to-text
translation. We evaluate ConST and a variety of previous baselines on a popular
benchmark MuST-C. Experiments show that the proposed ConST consistently
outperforms the previous methods on, and achieves an average BLEU of 29.4. The
analysis further verifies that ConST indeed closes the representation gap of
different modalities -- its learned representation improves the accuracy of
cross-modal speech-text retrieval from 4% to 88%. Code and models are available
at https://github.com/ReneeYe/ConST.
- Abstract(参考訳): 音声発話と文章の統一表現をどのように学べるか?
意味的に類似した音声とテキストのための類似表現の学習は、音声翻訳にとって重要である。
そこで本研究では,エンドツーエンドの音声からテキストへの翻訳のためのコントラスト学習手法であるConSTを提案する。
我々は、人気のベンチマーク MuST-C で、ConST と様々な以前のベースラインを評価した。
実験によれば、constは従来の手法を一貫して上回っており、平均ブレウは29.4である。
この分析により、ConSTが様々なモダリティの表現ギャップを実際に閉じていることが確かめられる。その学習された表現は、モーダル音声テキスト検索の精度を4%から88%に向上させる。
コードとモデルはhttps://github.com/ReneeYe/ConST.comで公開されている。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought [33.32415197728357]
音声言語モデル(SLM)は,音声翻訳タスクにおいて印象的な性能を示した。
本研究では,SLMのチェーン・オブ・シークレット機能を活性化する3段階のトレーニングフレームワークを提案する。
本稿では,マルチモーダルCoTを用いた音声翻訳モデルであるCoT-STを提案する。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - WACO: Word-Aligned Contrastive Learning for Speech Translation [11.67083845641806]
音声翻訳(E2E)は、ソース音声を直接ターゲットテキストに変換することを目的としている。
既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。
極めて低音源の音声からテキストへの翻訳をシンプルかつ効果的に行うためのワードアラインド・コントラスト学習(WACO)を提案する。
論文 参考訳(メタデータ) (2022-12-19T10:49:35Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。