論文の概要: ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in
Multi-turn Conversation
- arxiv url: http://arxiv.org/abs/2112.06223v1
- Date: Sun, 12 Dec 2021 12:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 10:20:17.749830
- Title: ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in
Multi-turn Conversation
- Title(参考訳): ASCEND: マルチターン会話におけるコードスイッチングのための中国語と英語の自発データセット
- Authors: Holy Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Peng Xu, Xu Yan,
Zihan Liu, Rita Frieske, Tiezheng Yu, Wenliang Dai, Elham J. Barezi, Pascale
Fung
- Abstract要約: ASCENDは、中国語と英語のコードスイッチングコーパスを自発的に対話するための高品質なリソースを導入している。
本稿では,本研究におけるアノテーションを含む音声データを収集するASCENDの設計と手順について報告する。
ASCENDには、中国語と英語の両方に通じる23のバイリンガルがあり、9.23時間クリーンスピーチコーパスで構成されている。
- 参考スコア(独自算出の注目度): 41.71242653813909
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code-switching is a speech phenomenon when a speaker switches language during
a conversation. Despite the spontaneous nature of code-switching in
conversational spoken language, most existing works collect code-switching data
through read speech instead of spontaneous speech. ASCEND (A Spontaneous
Chinese-English Dataset) introduces a high-quality resource of spontaneous
multi-turn conversational dialogue Chinese-English code-switching corpus
collected in Hong Kong. We report ASCEND's design and procedure of collecting
the speech data, including the annotations in this work. ASCEND includes 23
bilinguals that are fluent in both Chinese and English and consists of 9.23
hours clean speech corpus.
- Abstract(参考訳): コードスイッチング(Code-switching)は、会話中に話者が言語を切り替える音声現象である。
会話音声言語におけるコードスイッチングの自発的な性質にもかかわらず、既存のほとんどの研究は、自然発話ではなく読み上げ音声を通してコードスイッチングデータを収集している。
ASCEND (A Spontaneous Chinese-English Dataset) は、香港で収集された中国語と英語のコード交換コーパスの対話を自然に行うための高品質なリソースである。
本稿では,本研究におけるアノテーションを含む音声データを収集するASCENDの設計と手順について報告する。
ASCENDには、中国語と英語の両方に通じる23のバイリンガルがあり、9.23時間クリーンスピーチコーパスで構成されている。
関連論文リスト
- Code-switching in text and speech reveals information-theoretic audience design [5.3329709073809095]
コードスイッチングに影響を与える要因について,言語モデルを用いて検討する。
ある話者が1つの言語(第一言語)と別の言語(第二言語)を交互に話すとき、コードスイッチングが発生する
論文 参考訳(メタデータ) (2024-08-08T17:14:12Z) - CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units [0.0]
コードスイッチングデータをPSSTで検出したインネーションユニットに置き換えて合成する。
我々はM2M-100 418MとNLLB-200 600Mの2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。
論文 参考訳(メタデータ) (2024-07-19T13:26:35Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - GupShup: An Annotated Corpus for Abstractive Summarization of
Open-Domain Code-Switched Conversations [28.693328393260906]
ヒンズー語と英語の会話を要約し,最初の会話要約データセットを開発した。
GupShupはヒンディー語で6,831以上の会話と、ヒンディー語とヒンディー語で対応する人間の注釈付き要約を含んでいる。
我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。
論文 参考訳(メタデータ) (2021-04-17T15:42:01Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。