論文の概要: Convex Low-resource Accent-Robust Language Detection in Speech Recognition
- arxiv url: http://arxiv.org/abs/2605.23235v1
- Date: Fri, 22 May 2026 05:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.204321
- Title: Convex Low-resource Accent-Robust Language Detection in Speech Recognition
- Title(参考訳): 音声認識におけるコンベックス低リソースアクセント・ロバスト言語検出
- Authors: Miria Feng, William Tan, Mert Pilanci,
- Abstract要約: 現在の音声対話システムは、表現されていない方言やアクセントでしばしば失敗する。
音声対話システムパイプラインに理論的に接地した凸最適化技術を統合する新しいフレームワークであるConvex Language Detection (CLD)を提案する。
- 参考スコア(独自算出の注目度): 47.409626500688866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Globalization and multiculturalism continue to produce increasingly diverse speech varieties. Yet current spoken dialogue systems frequently fail on under-represented dialects and accents, often misidentifying the input language and causing cascading failures in downstream dialogue tasks. Addressing this dialectal variance under low-resource constraints remains an open challenge, as standard fine-tuning is computationally expensive and prone to overfitting on high-dimensional speech data. We propose Convex Language Detection (CLD), a novel framework that integrates theoretically grounded convex optimization techniques into the spoken dialogue systems pipeline. Our method is efficiently implemented via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, thus providing global optimality guarantees and fast training in polynomial time. Theoretically, we prove that our convex objective induces certified margin stability and provide guarantees against feature perturbations. Empirically, we demonstrate sample efficiency and robustness to input dialectical variation, achieving 97-98% accuracy in challenging low-resource regimes. Our open-source package is available at https://pypi.org/project/jaxcld/
- Abstract(参考訳): グローバリゼーションと多文化主義は多種多様な言語を生産し続けている。
しかし、現在の音声対話システムは、あまり表現されていない方言やアクセントでしばしば失敗し、しばしば入力言語を誤認し、下流の対話タスクでカスケード障害を引き起こす。
標準微調整は計算コストが高く、高次元音声データに過度に適合する傾向があるため、低リソース制約下でのこの方言分散に対処することは依然としてオープンな課題である。
音声対話システムパイプラインに理論的に接地した凸最適化技術を統合する新しいフレームワークであるConvex Language Detection (CLD)を提案する。
本手法は, JAX のマルチGPU代替指向法 (ADMM) を用いて効率よく実装され, 多項式時間における大域的最適性保証と高速トレーニングを実現する。
理論的には、凸目標が証明されたマージン安定性を誘導し、特徴摂動に対する保証を提供することを証明している。
実験により,低資源体制に挑戦する上で,弁証的変動に対するサンプル効率とロバスト性を示し,97~98%の精度を達成した。
私たちのオープンソースパッケージはhttps://pypi.org/project/jaxcld/で利用可能です。
関連論文リスト
- Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。
我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T02:56:33Z) - Beyond WER: Probing Whisper's Sub-token Decoder Across Diverse Language Resource Levels [6.627057618324123]
本稿では,Whisperの多言語デコーダの詳細な解析を紹介する。
提案手法は,ビーム探索経路をトレースし,サブトークン推定とその関連確率を推定する。
リソース言語が低いほど、これらのメトリクスは悪化するが、サブトークンの使用ではクラスタリングパターンが異なる。
論文 参考訳(メタデータ) (2025-09-29T21:20:05Z) - Multi-level SSL Feature Gating for Audio Deepfake Detection [4.053610356853999]
生成AIの最近の進歩、特に音声合成は、非常に自然な音声合成音声の生成を可能にしている。
これらのイノベーションは、不正行為の誤用、ID盗難、セキュリティの脅威など、重大なリスクをもたらす。
スプーフィング検出対策の現在の研究は、未確認のディープフェイク攻撃や言語への一般化によって制限されている。
本稿では,フロントエンド特徴抽出器として音声基礎XLS-Rモデルから関連する特徴を抽出するゲーティング機構を提案する。
論文 参考訳(メタデータ) (2025-09-03T15:37:52Z) - Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation [3.7678366606419345]
低リソースの言語ペア間の有害な内容の翻訳は、攻撃的な表現を衛生化するための並列データと安全フィルタの不足による課題を提起する。
コードミキシングされたSinglishセーフティコーパス上で実証された毒性保存翻訳のための2段階のフレームワークを提案する。
我々は,Singlishを包括的NLPテストベッドとして位置づけることにより,実世界の応用における社会言語的ニュアンスを維持することの重要性を強調した。
論文 参考訳(メタデータ) (2025-07-16T06:58:02Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。