論文の概要: Geolocation-Aware Robust Spoken Language Identification
- arxiv url: http://arxiv.org/abs/2508.17148v1
- Date: Sat, 23 Aug 2025 21:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.366861
- Title: Geolocation-Aware Robust Spoken Language Identification
- Title(参考訳): 位置認識型ロバスト音声言語同定
- Authors: Qingzheng Wang, Hye-jin Shim, Jiancheng Sun, Shinji Watanabe,
- Abstract要約: 位置情報認識型LIDは、言語レベルの位置情報をSSLベースのLIDモデルに組み込む新しいアプローチである。
位置情報予測を補助的タスクとして導入し、予測ベクトルを条件付き信号として中間表現に注入する。
6つの多言語データセットに対する実験により、我々のアプローチは言語内変異や目に見えない領域に対する堅牢性を向上させることが示された。
- 参考スコア(独自算出の注目度): 46.38730484136585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Self-supervised Learning (SSL) has significantly improved Spoken Language Identification (LID), existing models often struggle to consistently classify dialects and accents of the same language as a unified class. To address this challenge, we propose geolocation-aware LID, a novel approach that incorporates language-level geolocation information into the SSL-based LID model. Specifically, we introduce geolocation prediction as an auxiliary task and inject the predicted vectors into intermediate representations as conditioning signals. This explicit conditioning encourages the model to learn more unified representations for dialectal and accented variations. Experiments across six multilingual datasets demonstrate that our approach improves robustness to intra-language variations and unseen domains, achieving new state-of-the-art accuracy on FLEURS (97.7%) and 9.7% relative improvement on ML-SUPERB 2.0 dialect set.
- Abstract(参考訳): 自己教師付き学習(SSL)は音声言語識別(LID)を大幅に改善しているが、既存のモデルは統一されたクラスと同じ言語の方言やアクセントを一貫して分類するのに苦労することが多い。
この課題に対処するため,SSL ベースの LID モデルに言語レベルの位置情報を組み込んだ新しいアプローチである ジオロケーション対応 LID を提案する。
具体的には、位置情報予測を補助タスクとして導入し、予測ベクトルを条件付き信号として中間表現に注入する。
この明示的な条件付けは、方言およびアクセント付き変種に対するより統一された表現を学ぶことをモデルに促す。
6つの多言語データセットに対する実験により、我々のアプローチは言語内変異や未確認領域に対する堅牢性を改善し、FLEURS(97.7%)における新しい最先端精度、ML-SUPERB 2.0方言セットにおける9.7%の相対的改善を実現している。
関連論文リスト
- ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Multilingual Contrastive Framework [78.07201802874529]
ShifConはシフトベースの多言語コントラストフレームワークで、他の言語の内部のフォワードプロセスを支配的な言語に合わせる。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models [69.59613095232598]
既存のSSLモデルにLoRAを統合して新しい言語を拡張する適応手法を提案する。
また、既存の言語における能力を維持するために、データの組み合わせと再クラスタ化を含む保存戦略も開発している。
論文 参考訳(メタデータ) (2024-06-20T08:13:30Z) - Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。
言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。
我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文 参考訳(メタデータ) (2023-12-18T06:40:24Z) - Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。
ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:55:00Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-Domain Adaptation of Spoken Language Identification for Related
Languages: The Curious Case of Slavic Languages [17.882477802269243]
本稿では,ドメインミスマッチがニューラルLIDシステムの性能に与える影響について検討する。
ドメイン外の音声サンプルがニューラルLIDモデルの性能を著しく損なうことを示す。
音源領域の音響条件の多様性に応じて,9%から77%の相対精度向上を実現した。
論文 参考訳(メタデータ) (2020-08-02T19:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。