論文の概要: MauBERT: Universal Phonetic Inductive Biases for Few-Shot Acoustic Units Discovery
- arxiv url: http://arxiv.org/abs/2512.19612v1
- Date: Mon, 22 Dec 2025 17:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.863993
- Title: MauBERT: Universal Phonetic Inductive Biases for Few-Shot Acoustic Units Discovery
- Title(参考訳): MauBERT: 音響ユニットの発見のためのユニバーサル音声インダクティブ・バイアーズ
- Authors: Angelo Ortiz Tandazo, Manel Khentout, Youssef Benchekroun, Thomas Hueber, Emmanuel Dupoux,
- Abstract要約: MauBERTはHuBERTの多言語拡張であり、言語間音声表現学習に調音機能を利用する。
我々のモデルは多言語データから学習し、音声特徴や電話を予測し、言語に依存しない表現をもたらす。
我々は、MauBERTモデルが最先端の多言語自己教師型学習モデルよりも文脈不変表現を生成することを示す。
- 参考スコア(独自算出の注目度): 12.442501000586995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MauBERT, a multilingual extension of HuBERT that leverages articulatory features for robust cross-lingual phonetic representation learning. We continue HuBERT pre-training with supervision based on a phonetic-to-articulatory feature mapping in 55 languages. Our models learn from multilingual data to predict articulatory features or phones, resulting in language-independent representations that capture multilingual phonetic properties. Through comprehensive ABX discriminability testing, we show MauBERT models produce more context-invariant representations than state-of-the-art multilingual self-supervised learning models. Additionally, the models effectively adapt to unseen languages and casual speech with minimal self-supervised fine-tuning (10 hours of speech). This establishes an effective approach for instilling linguistic inductive biases in self-supervised speech models.
- Abstract(参考訳): 本稿では,HuBERTの多言語拡張であるMauBERTを紹介する。
55言語における音声・調音機能マッピングに基づいて,HuBERTの事前学習を継続する。
我々のモデルは多言語データから学習し、音声特徴や電話を予測し、多言語音声特性をキャプチャする言語に依存しない表現をもたらす。
総合的なABX識別可能性テストを通じて、MauBERTモデルは最先端の多言語自己教師型学習モデルよりも文脈不変表現を生成することを示す。
さらに、モデルは、最小限の自己教師付き微調整(10時間のスピーチ)で、目に見えない言語やカジュアルスピーチに効果的に適応する。
これにより、自己教師型音声モデルにおいて、言語誘導バイアスを注入するための効果的なアプローチが確立される。
関連論文リスト
- GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness [43.67571101152883]
本稿では,パラ言語的・話者的特徴認識を備えた新しい言語モデルGOAT-SLMを紹介する。
GOAT-SLMは、言語モデリングを音響的実現から切り離すデュアルモダリティヘッドアーキテクチャを採用している。
GOAT-SLMはセマンティックタスクと非セマンティックタスクの両方でバランスよく動作し、既存のオープンソースモデルよりも感情や方言の変化、年齢に敏感なインタラクションを処理できることを示す。
論文 参考訳(メタデータ) (2025-07-24T06:10:29Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Language-Universal Phonetic Representation in Multilingual Speech
Pretraining for Low-Resource Speech Recognition [28.21805271848413]
我々は、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベルの擬似ラベルを作成する。
我々はこれらの擬似ラベルを用いて隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームドで案内する。
当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なくて、芸術のほとんどの州よりも優れています。
論文 参考訳(メタデータ) (2023-05-19T10:15:11Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。