論文の概要: Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech
- arxiv url: http://arxiv.org/abs/2508.09430v1
- Date: Wed, 13 Aug 2025 02:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.728194
- Title: Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech
- Title(参考訳): コードスイッチ型子供向け音声における効果的な言語識別のためのジップフォーマモデルの活用
- Authors: Lavanya Shankar, Leibny Paola Garcia Perera,
- Abstract要約: 我々はZipformerを用いて、マンダリンと英語の2つの不均衡言語を含む音声のニュアンスを発話で処理する。
提案手法は,不均衡データを効果的に処理し,言語識別基準よりも15.47%向上したバランス精度(BAC)が81.89%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching and language identification in child-directed scenarios present significant challenges, particularly in bilingual environments. This paper addresses this challenge by using Zipformer to handle the nuances of speech, which contains two imbalanced languages, Mandarin and English, in an utterance. This work demonstrates that the internal layers of the Zipformer effectively encode the language characteristics, which can be leveraged in language identification. We present the selection methodology of the inner layers to extract the embeddings and make a comparison with different back-ends. Our analysis shows that Zipformer is robust across these backends. Our approach effectively handles imbalanced data, achieving a Balanced Accuracy (BAC) of 81.89%, a 15.47% improvement over the language identification baseline. These findings highlight the potential of the transformer encoder architecture model in real scenarios.
- Abstract(参考訳): 子供向けシナリオにおけるコードスイッチングと言語識別は、特にバイリンガル環境において重要な課題を示す。
本稿では,音声のニュアンスを扱うためにZipformerを用いることで,この課題に対処する。
この研究は、Zipformerの内部層が言語の特徴を効果的に符号化し、言語識別に活用できることを実証している。
埋め込みを抽出し,異なるバックエンドとの比較を行うため,内部層の選択手法を提案する。
我々の分析によるとZipformerはこれらのバックエンドで堅牢である。
提案手法は,不均衡データを効果的に処理し,言語識別基準よりも15.47%向上したバランス精度(BAC)が81.89%に達する。
これらの結果は、実際のシナリオにおけるトランスフォーマーエンコーダアーキテクチャモデルの可能性を強調している。
関連論文リスト
- Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。
我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文 参考訳(メタデータ) (2024-12-21T07:06:44Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。