論文の概要: How Far Do SSL Speech Models Listen for Tone? Temporal Focus of Tone Representation under Low-resource Transfer
- arxiv url: http://arxiv.org/abs/2511.12285v1
- Date: Sat, 15 Nov 2025 16:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.801088
- Title: How Far Do SSL Speech Models Listen for Tone? Temporal Focus of Tone Representation under Low-resource Transfer
- Title(参考訳): SSL音声モデルは音色を聴くか?-低音源転送による音色表現の時間的焦点
- Authors: Minu Kim, Ji Sub Um, Hoirin Kim,
- Abstract要約: 我々は,ビルマ語,タイ語,ラオス語,ベトナム語という,複雑で多様な音調を持つ4つの言語を研究する。
ビルマ州とタイ州で約100ms,ラオスとベトナムでは約180msと推定した。
- 参考スコア(独自算出の注目度): 12.840107177269902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexical tone is central to many languages but remains underexplored in self-supervised learning (SSL) speech models, especially beyond Mandarin. We study four languages with complex and diverse tone systems: Burmese, Thai, Lao, and Vietnamese, to examine how far such models listen for tone and how transfer operates in low-resource conditions. As a baseline reference, we estimate the temporal span of tone cues to be about 100 ms in Burmese and Thai, and about 180 ms in Lao and Vietnamese. Probes and gradient analyses on fine-tuned SSL models reveal that tone transfer varies by downstream task: automatic speech recognition fine-tuning aligns spans with language-specific tone cues, while prosody- and voice-related tasks bias the model toward overly long spans. These findings indicate that tone transfer is shaped by downstream task, highlighting task effects on temporal focus in tone modeling.
- Abstract(参考訳): 語彙音は多くの言語の中心であるが、特にマンダリン以外の自己教師付き学習(SSL)音声モデルでは未熟である。
ビルマ語、タイ語、ラオス語、ベトナム語の4つの言語について検討し、これらのモデルがどのように音を聴くか、低リソース条件下での転送がどのように動作するかを検討する。
基準として,ビルマとタイで約100ms,ラオスとベトナムで約180msと推定した。
自動音声認識の微調整アライメントは、言語固有の音調キューにまたがるが、韻律や音声に関連したタスクは、モデルが過度に長い範囲に偏っている。
これらの結果から, 音調伝達は下流タスクによって形成され, 時間的焦点が音調モデリングに与える影響が示唆された。
関連論文リスト
- Leveraging Audio-Visual Data to Reduce the Multilingual Gap in Self-Supervised Speech Models [8.556170587475146]
自己教師付き学習(SSL)は、音声表現学習において大きな進歩を遂げている。
多言語SSLモデルは、個々の言語でモノリンガルのモデルよりも性能が低い傾向にある。
この性能ギャップを低減するために、バイリンガル音声SSLモデルに限られた視覚的グラウンドを導入する。
論文 参考訳(メタデータ) (2025-09-22T08:48:04Z) - Tone recognition in low-resource languages of North-East India: peeling the layers of SSL-based speech models [8.3067762265238]
本研究では,インド北東部の低リソース言語3言語において,自己教師付き学習(SSL)モデルを用いたトーン認識について検討した。
音節言語と非音節言語の両方で事前学習された4つのWav2vec2.0ベースモデルを評価した。
以上の結果から, 美蔵では音色認識が最善で, 安神では最悪であることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T06:32:12Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。