論文の概要: End-to-End Speech Translation for Code Switched Speech
- arxiv url: http://arxiv.org/abs/2204.05076v1
- Date: Mon, 11 Apr 2022 13:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 23:05:53.637353
- Title: End-to-End Speech Translation for Code Switched Speech
- Title(参考訳): コード切り換え音声のエンドツーエンド音声翻訳
- Authors: Orion Weller, Matthias Sperber, Telmo Pires, Hendra Setiawan,
Christian Gollan, Dominic Telaar, Matthias Paulik
- Abstract要約: コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
- 参考スコア(独自算出の注目度): 13.97982457879585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code switching (CS) refers to the phenomenon of interchangeably using words
and phrases from different languages. CS can pose significant accuracy
challenges to NLP, due to the often monolingual nature of the underlying
systems. In this work, we focus on CS in the context of English/Spanish
conversations for the task of speech translation (ST), generating and
evaluating both transcript and translation. To evaluate model performance on
this task, we create a novel ST corpus derived from existing public data sets.
We explore various ST architectures across two dimensions: cascaded (transcribe
then translate) vs end-to-end (jointly transcribe and translate) and
unidirectional (source -> target) vs bidirectional (source <-> target). We show
that our ST architectures, and especially our bidirectional end-to-end
architecture, perform well on CS speech, even when no CS training data is used.
- Abstract(参考訳): コードスイッチング(Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
CSは、基礎となるシステムの単言語的性質がしばしばあるため、NLPにかなりの精度の課題をもたらす可能性がある。
本研究では,音声翻訳作業(ST)における英語・スペイン語会話の文脈におけるCSに着目し,テキストと翻訳の両方を生成・評価する。
このタスクにおけるモデル性能を評価するために、既存の公開データセットから派生した新しいSTコーパスを作成する。
カスケード(翻訳後翻訳)とエンド・ツー・エンド(共同翻訳と翻訳)と一方向(ソース ->ターゲット)と双方向(ソース <->ターゲット)の2次元にわたる様々なstアーキテクチャについて検討した。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
関連論文リスト
- ConCSE: Unified Contrastive Learning and Augmentation for Code-Switched Embeddings [4.68732641979009]
本稿では、2つの言語が1つの発話の中で交わるコードスイッチング(CS)現象について検討する。
我々は、他の言語におけるCSの現在の等価制約(EC)理論は、部分的にしか英語と韓国のCSの複雑さを捉えていないことを強調した。
我々は,このような課題を緩和するために,英語と韓国のCSシナリオに適した新しいKoglishデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-28T11:27:21Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Towards Real-World Streaming Speech Translation for Code-Switched Speech [7.81154319203032]
コードスイッチング(CS)は通信において一般的な現象であり、多くの自然言語処理(NLP)環境では困難である。
我々は、現実のCS音声翻訳に欠かせない2つの領域、すなわちストリーミング設定と第3言語への翻訳に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-19T11:15:02Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.52122386938913]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。
本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文 参考訳(メタデータ) (2023-04-10T14:05:22Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian
Languages Code-Switching Challenge [7.711092265101041]
本稿では,低リソースのインド言語に対するICS(Interspeech 2021 Code-switching)チャレンジに参加するために使用される,Kanari/QCRIシステムとモデリング戦略について述べる。
このサブタスクには、ヒンディー語とベンガル語という2つのCSデータセットのための音声認識システムの開発が含まれていた。
CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
論文 参考訳(メタデータ) (2021-06-10T16:12:51Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。