論文の概要: HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.24613v2
- Date: Sun, 05 Oct 2025 16:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.884642
- Title: HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition
- Title(参考訳): HiKE:韓国英語コード変換音声認識のための階層的評価フレームワーク
- Authors: Gio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim,
- Abstract要約: コードスイッチング(英: Code-switching)とは、日々の発話に共通する発話の中で言語が混在することである。
HiKEは、韓国語と英語のコードスイッチングのための、世界で初めてアクセス可能な評価フレームワークである。
- 参考スコア(独自算出の注目度): 4.5783117953100785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in multilingual automatic speech recognition (ASR), code-switching (CS), the mixing of languages within an utterance common in daily speech, remains a severely underexplored challenge. In this paper, we introduce HiKE: the Hierarchical Korean-English code-switching benchmark, the first globally accessible evaluation framework for Korean-English CS, aiming to provide a means for the precise evaluation of multilingual ASR models and to foster research in the field. The proposed framework not only consists of high-quality, natural CS data across various topics, but also provides meticulous loanword labels and a hierarchical CS-level labeling scheme (word, phrase, and sentence) that together enable a systematic evaluation of a model's ability to handle each distinct level of code-switching. Through evaluations of diverse multilingual ASR models and fine-tuning experiments, this paper demonstrates that although most multilingual ASR models initially exhibit inadequate CS-ASR performance, this capability can be enabled through fine-tuning with synthetic CS data. HiKE is available at https://github.com/ThetaOne-AI/HiKE
- Abstract(参考訳): 多言語自動音声認識(ASR)やコードスイッチング(CS)の進歩にもかかわらず、日々の発話に共通する発話における言語混在は、いまだに過小評価されている課題である。
本稿では,多言語ASRモデルの精度評価のための手段を提供し,この分野の研究を促進することを目的として,韓国語CSの国際的にアクセス可能な最初の評価フレームワークである階層型韓国語-英語コードスイッチングベンチマークHiKEを紹介する。
提案するフレームワークは,高品質で自然なCSデータから様々なトピックにまたがるだけでなく,簡潔な借用語ラベルや階層的なCSレベルのラベル付けスキーム(単語,フレーズ,文)も提供し,異なるレベルのコードスイッチングを扱うモデルの能力の体系的評価を可能にする。
多様な多言語ASRモデルの評価と微調整実験により、ほとんどの多言語ASRモデルは当初はCS-ASR性能が不十分であったが、合成CSデータによる微調整により実現可能であることを示す。
HiKEはhttps://github.com/ThetaOne-AI/HiKEで利用可能である。
関連論文リスト
- Optimizing ASR for Catalan-Spanish Code-Switching: A Comparative Analysis of Methodologies [9.224033819309708]
2つ以上の言語を交互に使用するコードスイッチング(CS)は、訓練データ不足と言語的類似性のため、自動音声認識(ASR)に挑戦する。
1)合成CSデータの生成,(2)モノリンガル音声の連結,(3)言語トークンを用いた実CSデータの利用,の3つの戦略を探索することにより,カタルーニャ・スペインのCSのためのASRを改善する。
その結果,合成CSデータの質素な量と支配的な言語トークンを組み合わせれば,最高の転写性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-07-18T12:54:41Z) - SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。
この言語現象は、自動音声認識(ASR)システムに課題をもたらす。
textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文 参考訳(メタデータ) (2025-05-30T05:54:46Z) - AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR [1.8533128809847572]
文内コードスイッチングは,音声認識システムにおいて重要な課題である。
AdaCSは、適応バイアスアテンションモジュールをエンコーダ・デコーダネットワークに統合する正規化モデルである。
実験の結果,AdaCSはベトナムのCS ASR正規化において,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-13T07:27:00Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。