論文の概要: Adapting Language Balance in Code-Switching Speech
- arxiv url: http://arxiv.org/abs/2510.18724v1
- Date: Tue, 21 Oct 2025 15:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.823671
- Title: Adapting Language Balance in Code-Switching Speech
- Title(参考訳): コードスイッチ音声における言語バランスの適応
- Authors: Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel,
- Abstract要約: 大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
- 参考スコア(独自算出の注目度): 60.296574524609575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite achieving impressive results on standard benchmarks, large foundational models still struggle against code-switching test cases. When data scarcity cannot be used as the usual justification for poor performance, the reason may lie in the infrequent occurrence of code-switched moments, where the embedding of the second language appears subtly. Instead of expecting the models to learn this infrequency on their own, it might be beneficial to provide the training process with labels. Evaluating model performance on code-switching data requires careful localization of code-switching points where recognition errors are most consequential, so that the analysis emphasizes mistakes occurring at those moments. Building on this observation, we leverage the difference between the embedded and the main language to highlight those code-switching points and thereby emphasize learning at those locations. This simple yet effective differentiable surrogate mitigates context bias during generation -- the central challenge in code-switching -- thereby improving the model's robustness. Our experiments with Arabic and Chinese-English showed that the models are able to predict the switching places more correctly, reflected by the reduced substitution error.
- Abstract(参考訳): 標準ベンチマークで印象的な結果を得たにもかかわらず、大規模な基礎モデルは、コードスイッチングテストケースと相変わらず苦労している。
データ不足がパフォーマンスの悪い通常の正当性として利用できない場合、その理由はコードに切り替えられたモーメントの頻繁な発生に起因し、第二言語の埋め込みが微妙に現れる可能性がある。
モデルがこの頻度で学習することを期待しているのではなく、ラベルでトレーニングプロセスを提供する方が有益かもしれない。
コードスイッチングデータ上でのモデル性能の評価には、認識エラーが最も頻繁なコードスイッチングポイントを慎重に位置決めする必要がある。
この観察に基づいて、組み込み言語とメイン言語の違いを利用して、これらのコードスイッチングポイントを強調し、それらの場所での学習を強調する。
このシンプルで効果的な差別化可能なサロゲートは、生成中のコンテキストバイアスを緩和します。
アラビア語と中国語を用いた実験により, 置換誤差の低減により, 切り替え箇所をより正確に予測できることが判明した。
関連論文リスト
- Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation [50.93756215410832]
本稿では,デコード時にトークンをフィルタリングする軽量なプラグインソリューションであるLanguage Confusion Gate (LCG)を紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
論文 参考訳(メタデータ) (2025-10-20T14:02:37Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - PIER: A Novel Metric for Evaluating What Matters in Code-Switching [15.370845263369347]
コードスイッチングは音声認識において重要な課題である。
Word-Error-Rate (WER)のような一般的なメトリクスは、一般的にパフォーマンスを測定するために使われる。
We propose Point-of-interest Error Rate (PIER) is proposed WER is variant of WER which only focus on specific words of interest。
論文 参考訳(メタデータ) (2025-01-16T12:57:33Z) - Uncertainty Awareness of Large Language Models Under Code Distribution
Shifts: A Benchmark Study [14.507068647009602]
大規模言語モデル(LLM)は、人間の生産性を高めるために、プログラム言語分析に広く用いられている。
その信頼性は、さまざまなコード分散シフトによって損なわれ、一貫性のない出力につながる。
確率法は不確実性キャリブレーションと推定によってそのような影響を軽減することが知られている。
論文 参考訳(メタデータ) (2024-01-12T00:00:32Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。