論文の概要: Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech
- arxiv url: http://arxiv.org/abs/2508.09430v1
- Date: Wed, 13 Aug 2025 02:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.728194
- Title: Leveraging Zipformer Model for Effective Language Identification in Code-Switched Child-Directed Speech
- Title(参考訳): コードスイッチ型子供向け音声における効果的な言語識別のためのジップフォーマモデルの活用
- Authors: Lavanya Shankar, Leibny Paola Garcia Perera,
- Abstract要約: 我々はZipformerを用いて、マンダリンと英語の2つの不均衡言語を含む音声のニュアンスを発話で処理する。
提案手法は,不均衡データを効果的に処理し,言語識別基準よりも15.47%向上したバランス精度(BAC)が81.89%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching and language identification in child-directed scenarios present significant challenges, particularly in bilingual environments. This paper addresses this challenge by using Zipformer to handle the nuances of speech, which contains two imbalanced languages, Mandarin and English, in an utterance. This work demonstrates that the internal layers of the Zipformer effectively encode the language characteristics, which can be leveraged in language identification. We present the selection methodology of the inner layers to extract the embeddings and make a comparison with different back-ends. Our analysis shows that Zipformer is robust across these backends. Our approach effectively handles imbalanced data, achieving a Balanced Accuracy (BAC) of 81.89%, a 15.47% improvement over the language identification baseline. These findings highlight the potential of the transformer encoder architecture model in real scenarios.
- Abstract(参考訳): 子供向けシナリオにおけるコードスイッチングと言語識別は、特にバイリンガル環境において重要な課題を示す。
本稿では,音声のニュアンスを扱うためにZipformerを用いることで,この課題に対処する。
この研究は、Zipformerの内部層が言語の特徴を効果的に符号化し、言語識別に活用できることを実証している。
埋め込みを抽出し,異なるバックエンドとの比較を行うため,内部層の選択手法を提案する。
我々の分析によるとZipformerはこれらのバックエンドで堅牢である。
提案手法は,不均衡データを効果的に処理し,言語識別基準よりも15.47%向上したバランス精度(BAC)が81.89%に達する。
これらの結果は、実際のシナリオにおけるトランスフォーマーエンコーダアーキテクチャモデルの可能性を強調している。
関連論文リスト
- Language-Agnostic Visual Embeddings for Cross-Script Handwriting Retrieval [5.359439761925416]
本稿では,統一的,スタイル不変な視覚埋め込みを学習する軽量な非対称なデュアルエンコーダフレームワークを提案する。
インスタンスレベルのアライメントとクラスレベルのセマンティック一貫性を共同で最適化することにより、言語に依存しないセマンティックプロトタイプに視覚的な埋め込みをアンロックする。
実験の結果,本手法は言語内検索ベンチマークにおいて,28のベースラインと最先端の精度に優れていた。
論文 参考訳(メタデータ) (2026-01-16T12:55:41Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。
我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文 参考訳(メタデータ) (2024-12-21T07:06:44Z) - Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。