論文の概要: The Limits of Data Scaling: Sub-token Utilization and Acoustic Saturation in Multilingual ASR
- arxiv url: http://arxiv.org/abs/2510.22492v1
- Date: Sun, 26 Oct 2025 02:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.21967
- Title: The Limits of Data Scaling: Sub-token Utilization and Acoustic Saturation in Multilingual ASR
- Title(参考訳): データスケーリングの限界:多言語ASRにおけるサブトークン利用と音響飽和
- Authors: Siyu Liang, Nicolas Ballier, Gina-Anne Levow, Richard Wright,
- Abstract要約: 49言語にわたる推論においてWhisperの復号動作を分析する。
モデルのサブトークン空間の利用パターンについて検討する。
- 参考スコア(独自算出の注目度): 6.627057618324123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How much audio is needed to fully observe a multilingual ASR model's learned sub-token inventory across languages, and does data disparity in multilingual pre-training affect how these tokens are utilized during inference? We address this question by analyzing Whisper's decoding behavior during inference across 49 languages. By logging decoding candidate sub-tokens and tracking their cumulative discovery over time, we study the utilization pattern of the model's sub-token space. Results show that the total number of discovered tokens remains largely independent of a language's pre-training hours, indicating that data disparity does not strongly influence lexical diversity in the model's hypothesis space. Sub-token discovery rates follow a consistent exponential saturation pattern across languages, suggesting a stable time window after which additional audio yields minimal new sub-token activation. We refer to this convergence threshold as acoustic saturation time (AST). Further analyses of rank-frequency distributions reveal Zipf-like patterns better modeled by a Zipf-Mandelbrot law, and mean sub-token length shows a positive correlation with resource level. Additionally, those metrics show more favorable patterns for languages in the Latin script than those in scripts such as Cyrillic, CJK, and Semitic. Together, our study suggests that sub-token utilization during multilingual ASR inference is constrained more by the statistical, typological, and orthographic structure of the speech than by training data scale, providing an empirical basis for more equitable corpus construction and cross-lingual evaluation.
- Abstract(参考訳): 言語間で学習されたASRモデルのサブトークン在庫を十分に観察するためには、どの程度のオーディオが必要で、マルチリンガル事前学習におけるデータの相違は、推論中にこれらのトークンがどのように利用されるかに影響を与えるのか?
本稿では,49言語にわたる推論中にWhisperの復号動作を分析することで,この問題に対処する。
候補サブトークンをロギングし,その累積的な発見を時間とともに追跡することにより,モデルのサブトークン空間の利用パターンについて検討する。
その結果、発見されたトークンの総数は言語の事前学習時間に大きく依存していることが示され、データの相違がモデルの仮説空間における語彙の多様性に強く影響しないことが示唆された。
サブトーケン発見速度は言語間の一貫した指数的飽和パターンに従うため、安定した時間ウィンドウが提案され、付加的なオーディオが最小限の新しいサブトーケンアクティベーションをもたらす。
この収束閾値を音響飽和時間(AST)と呼ぶ。
さらに、ランク周波数分布の解析により、Zipf-Mandelbrot法則によりより良くモデル化されたZipf様パターンが示され、平均サブトークン長はリソースレベルと正の相関を示す。
さらに、これらの指標は、Cyrillic、CJK、Semiticといったスクリプトよりもラテン文字の言語に好ましいパターンを示している。
そこで本研究では,多言語ASR推論におけるサブトークン利用は,学習データ尺度よりも,音声の統計的,タイプ的,正統的な構造によって制限され,より公平なコーパス構築と言語間評価の実証的基盤を提供することを示す。
関連論文リスト
- Beyond WER: Probing Whisper's Sub-token Decoder Across Diverse Language Resource Levels [6.627057618324123]
本稿では,Whisperの多言語デコーダの詳細な解析を紹介する。
提案手法は,ビーム探索経路をトレースし,サブトークン推定とその関連確率を推定する。
リソース言語が低いほど、これらのメトリクスは悪化するが、サブトークンの使用ではクラスタリングパターンが異なる。
論文 参考訳(メタデータ) (2025-09-29T21:20:05Z) - Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks [7.216732751280017]
我々は、事前学習された多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報化パリティ(IP)を関連付ける。
我々は,最先端デコーダのみのLLMと,方言分類,話題分類,抽出質問応答の3つのタスクからなるエンコーダベースモデルを比較した。
分析の結果,TPは統語的・形態的手法に依存したタスクの性能を予測し,IPは意味的タスクのパフォーマンスを予測できることがわかった。
論文 参考訳(メタデータ) (2025-09-24T12:13:53Z) - Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs [59.230858581944425]
音声処理には、離散トークンと連続的な特徴の2つの主要なアプローチが出現している。
自己教師付き学習(SSL)に基づく離散的かつ連続的な特徴を、同じ実験環境下で比較する。
その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
論文 参考訳(メタデータ) (2025-08-25T10:16:07Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。