論文の概要: Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs
- arxiv url: http://arxiv.org/abs/2605.23975v1
- Date: Wed, 13 May 2026 16:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.992335
- Title: Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs
- Title(参考訳): 音声LLMにおける英語-マンダリン符号変換音声認識の直接選好最適化
- Authors: Trung Nguyen Quang, Cheng Yi Lewis Won, Minh Duc Pham, Yingxu He, Shuo Sun, Ai Ti Aw,
- Abstract要約: 音声大言語モデル(Audio LLMs)は、強い多言語機能にもかかわらず、コードスイッチング音声の書き起こしにおける体系的な失敗を示す。
選択された応答が混合言語コンテンツを保存する選好ペアを構成するモデルに、直接選好最適化を適用した。
このアライメントにより、MERは89.6%(分配中)と20.0%(分配外)まで減少する。
- 参考スコア(独自算出の注目度): 16.121226347387246
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio large language models (Audio LLMs) exhibit systematic failures in transcribing code-switching speech despite strong multilingual capabilities. Focusing on English-Mandarin, we identify three failure modes: language omission, translation-instead-of-transcription, and hallucination. We apply Direct Preference Optimization (DPO) to align models, constructing preference pairs in which chosen responses preserve mixed-language content while rejected responses mimic failure patterns. Training three Audio LLMs on 100K pairs (570 hours), we observe consistent behavioral shifts: models learn to preserve language composition rather than translating when prompted for transcription. This alignment yields MER reductions up to 89.6% (in-distribution) and 20.0% (out-of-distribution). Our findings suggest DPO can effectively elicit correct code-switching transcription behavior from multilingual Audio LLMs.
- Abstract(参考訳): 音声大言語モデル(Audio LLMs)は、強い多言語機能にもかかわらず、コードスイッチング音声の書き起こしにおける体系的な失敗を示す。
英語・マンダリンに焦点をあてて、言語省略、翻訳代行、幻覚の3つの障害モードを同定する。
提案手法はモデル調整にDPO(Direct Preference Optimization)を適用し,選択された応答が混在言語コンテンツを保存し,拒否された応答が失敗パターンを模倣する選好ペアを構築する。
100Kペア(570時間)で3つのオーディオLLMをトレーニングし、一貫した行動シフトを観察する。
このアライメントにより、MERは89.6%(分布内)と20.0%(分布外)まで減少する。
以上の結果から,DPOは多言語音声LLMからの正しいコードスイッチング転写挙動を効果的に引き出すことができることが示唆された。
関連論文リスト
- Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox [4.088161686930475]
VoxParadoxは2000の検証済みのサンプルを持ち、10のパラ言語的タスクにまたがる逆のベンチマークである。
音場真理の精度は一貫して低く, 言語による回答に追従する傾向が強い。
入力プロンプトに基づいて複数のオーディオ層からの情報を適応的に結合するPrompt-Conditioned Layer Mixer (PCLM)を提案する。
論文 参考訳(メタデータ) (2026-05-26T23:44:23Z) - Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages [3.5238606794194816]
ソーシャルメディアが音声による対話へとシフトするにつれ、虐待的音声検出の重要性が高まっている。
コントラスト言語-オーディオ事前学習が、音声から直接虐待的音声検出を支援できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-10T08:23:03Z) - Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease [72.0406069194794]
音声表現は、しばしば言語に依存した構造を符号化する。
本稿では,ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフトを提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチについて検討した。
論文 参考訳(メタデータ) (2026-03-23T17:23:39Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Languages are Modalities: Cross-Lingual Alignment via Encoder Injection [0.8461674097042394]
本稿では、トークン化器を変更したり、デコーダを再訓練したりすることなく、命令調整されたデコーダを条件とした効率的な言語・モダリティ手法を提案する。
LLINKはバイリンガル検索を大幅に改善し、ベースモデルよりも81.3%の嗜好を得る。
改良は, トークン化インフレーションの低減と, より強いクロスリンガルアライメントに起因することが判明した。
論文 参考訳(メタデータ) (2025-10-31T07:43:21Z) - Smoothie-Qwen: Post-Hoc Smoothing to Reduce Language Bias in Multilingual LLMs [4.881694369042022]
Smoothie-Qwenは、リトレーニングなしに言語のバイアスを軽減する軽量でポストホックな方法である。
提案手法はQwenモデルに適用し,意図しない中国語の出力を95%以上削減する。
論文 参考訳(メタデータ) (2025-07-08T05:30:51Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Using heterogeneity in semi-supervised transcription hypotheses to
improve code-switched speech recognition [6.224255518500385]
モノリンガルデータは、コードスウィッチペア内の1つの言語とより密に一致している可能性があることを示す。
コードスイッチングASRのための半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T18:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。