論文の概要: Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation
- arxiv url: http://arxiv.org/abs/2211.05967v1
- Date: Fri, 11 Nov 2022 02:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:42:09.294832
- Title: Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation
- Title(参考訳): align, write, re-order:操作シーケンス生成によるエンドツーエンド音声翻訳
- Authors: Motoi Omachi, Brian Yan, Siddharth Dalmia, Yuya Fujita, Shinji
Watanabe
- Abstract要約: 後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
- 参考スコア(独自算出の注目度): 37.48971774827332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The black-box nature of end-to-end speech translation (E2E ST) systems makes
it difficult to understand how source language inputs are being mapped to the
target language. To solve this problem, we would like to simultaneously
generate automatic speech recognition (ASR) and ST predictions such that each
source language word is explicitly mapped to a target language word. A major
challenge arises from the fact that translation is a non-monotonic sequence
transduction task due to word ordering differences between languages -- this
clashes with the monotonic nature of ASR. Therefore, we propose to generate ST
tokens out-of-order while remembering how to re-order them later. We achieve
this by predicting a sequence of tuples consisting of a source word, the
corresponding target words, and post-editing operations dictating the correct
insertion points for the target word. We examine two variants of such operation
sequences which enable generation of monotonic transcriptions and non-monotonic
translations from the same speech input simultaneously. We apply our approach
to offline and real-time streaming models, demonstrating that we can provide
explainable translations without sacrificing quality or latency. In fact, the
delayed re-ordering ability of our approach improves performance during
streaming. As an added benefit, our method performs ASR and ST simultaneously,
making it faster than using two separate systems to perform these tasks.
- Abstract(参考訳): エンドツーエンド音声翻訳(e2e st)システムのブラックボックス性は、ソース言語入力がどのようにターゲット言語にマッピングされているかを理解するのを難しくしている。
この問題を解決するために、各ソース言語単語が対象言語単語に明示的にマッピングされるように、自動音声認識(ASR)とST予測を同時に生成したい。
大きな課題は、翻訳が言語間の語順の違いによる非単調なシーケンス変換タスクであるという事実から生じ、これはASRの単調な性質と衝突する。
そこで本研究では,後から再注文する方法を記憶しながら,STトークンをアウトオブオーダーで生成することを提案する。
我々は、ソースワード、対応するターゲットワードからなるタプルのシーケンスを予測し、ターゲットワードの正しい挿入ポイントを予測した後編集操作によりこれを実現する。
同じ音声入力からモノトニック文字と非モノトニック翻訳を同時に生成できる操作シーケンスの2つの変種について検討する。
オフラインおよびリアルタイムストリーミングモデルにアプローチを適用することで、品質やレイテンシを犠牲にすることなく、説明可能な翻訳を提供できることを示す。
実際、我々のアプローチの遅れた再注文能力は、ストリーミング時のパフォーマンスを改善する。
新たな利点として,ASRとSTを同時に実行し,これらのタスクを実行するために2つの異なるシステムを使用するよりも高速である。
関連論文リスト
- A Data-Driven Representation for Sign Language Production [26.520016084139964]
手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。
現在の最先端のアプローチは、作業する言語資源の不足に依存しています。
本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:52:38Z) - Gujarati-English Code-Switching Speech Recognition using ensemble
prediction of spoken language [29.058108207186816]
マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
論文 参考訳(メタデータ) (2024-03-12T18:21:20Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - Learning to Count Words in Fluent Speech enables Online Speech
Recognition [10.74796391075403]
本稿では,変換器を用いたオンライン音声認識システムであるTarisを紹介する。
LRS2、LibriSpeech、Aishell-1データセットで実施された実験では、オンラインシステムは5セグメントの動的アルゴリズム遅延を持つ場合、オフラインシステムと同等に動作することが示された。
論文 参考訳(メタデータ) (2020-06-08T20:49:39Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。