論文の概要: Beyond WER: Probing Whisper's Sub-token Decoder Across Diverse Language Resource Levels
- arxiv url: http://arxiv.org/abs/2509.25516v1
- Date: Mon, 29 Sep 2025 21:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.944528
- Title: Beyond WER: Probing Whisper's Sub-token Decoder Across Diverse Language Resource Levels
- Title(参考訳): WERを超えて - Whisperのサブトークンデコーダをさまざまな言語リソースレベルにわたって探す
- Authors: Siyu Liang, Nicolas Ballier, Gina-Anne Levow, Richard Wright,
- Abstract要約: 本稿では,Whisperの多言語デコーダの詳細な解析を紹介する。
提案手法は,ビーム探索経路をトレースし,サブトークン推定とその関連確率を推定する。
リソース言語が低いほど、これらのメトリクスは悪化するが、サブトークンの使用ではクラスタリングパターンが異なる。
- 参考スコア(独自算出の注目度): 6.627057618324123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large multilingual automatic speech recognition (ASR) models achieve remarkable performance, the internal mechanisms of the end-to-end pipeline, particularly concerning fairness and efficacy across languages, remain underexplored. This paper introduces a fine-grained analysis of Whisper's multilingual decoder, examining its sub-token hypotheses during transcription across languages with various resource levels. Our method traces the beam search path, capturing sub-token guesses and their associated probabilities. Results reveal that higher resource languages benefit from higher likelihood of the correct token being top-ranked, greater confidence, lower predictive entropy, and more diverse alternative candidates. Lower resource languages fare worse on these metrics, but also exhibit distinct clustering patterns in sub-token usage sometimes influenced by typology in our PCA and t-SNE analysis. This sub-token probing uncovers systematic decoding disparities masked by aggregate error rates and points towards targeted interventions to ameliorate the imbalanced development of speech technology.
- Abstract(参考訳): 大規模多言語自動音声認識(ASR)モデルは優れた性能を発揮するが、特に言語間の公平性と有効性に関するエンドツーエンドパイプラインの内部メカニズムは未解明のままである。
本稿では,Whisperの多言語デコーダの微粒化解析を行い,様々な資源レベルを持つ言語間での転写におけるサブトーケン仮説について検討する。
提案手法は,ビーム探索経路をトレースし,サブトークン推定とその関連確率を推定する。
その結果、高いリソース言語は、正しいトークンが上位にランクされている可能性が高く、信頼性が高く、予測エントロピーが低く、代替候補が多様であることから恩恵を受けることが明らかになった。
また,PCA や t-SNE 分析の類型化の影響を受け,サブトークン使用におけるクラスタリングパターンの差異も指摘されている。
このサブトークン探索により,集合的誤り率によって隠蔽される体系的デコード格差が明らかになり,音声技術の不均衡な発展を改善すべく,対象とする介入が指摘される。
関連論文リスト
- Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。
本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文 参考訳(メタデータ) (2025-09-24T15:02:57Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。