論文の概要: A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language
- arxiv url: http://arxiv.org/abs/2605.03696v1
- Date: Tue, 05 May 2026 12:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.932838
- Title: A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language
- Title(参考訳): フランス語を用いたエンドツーエンド自動音声認識におけるトークン化と自己教師付き学習の包括的分析
- Authors: Thibault Bañeras-Roux, Mickael Rouvier, Jane Wottawa, Richard Dufour,
- Abstract要約: 本稿では,異なる言語的・音響的観点から,サブワードトークン化アルゴリズムと自己教師型学習モデルの影響について検討する。
これらのアルゴリズムは、自動転写の下流の応用を適切に記述できないことを示す。
- 参考スコア(独自算出の注目度): 12.151730134044696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of end-to-end automatic speech recognition (ASR) systems enables their increasing integration into numerous applications. While there are various benefits to such speech-to-text systems, the choice of hyperparameters and models plays a crucial role in their performance. Typically, these choices are determined by considering only the character (CER) and/or word error rate (WER) metrics. However, it has been shown in several studies that these metrics are largely incomplete and fail to adequately describe the downstream application of automatic transcripts. In this paper, we conduct a qualitative study on the French language that investigates the impact of subword tokenization algorithms and self-supervised learning models from different linguistic and acoustic perspectives, using a comprehensive set of evaluation metrics.
- Abstract(参考訳): エンドツーエンド自動音声認識(ASR)システムの性能は、多くのアプリケーションへの統合を増大させる。
このような音声-テキストシステムには様々な利点があるが、ハイパーパラメータとモデルの選択はその性能において重要な役割を担っている。
通常、これらの選択は文字(CER)と単語エラー率(WER)だけを考慮することで決定される。
しかし、これらの指標はほとんど不完全であり、自動転写の下流の応用を適切に記述できないことがいくつかの研究で示されている。
本稿では,言語と音響の異なる視点から,サブワードトークン化アルゴリズムと自己教師型学習モデルの影響を,総合的な評価指標を用いて調査する。
関連論文リスト
- Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning [57.22705949022221]
RoleJudgeは、音声大言語モデルを利用して、音声と文字のアライメントを評価する評価フレームワークである。
連鎖推論アノテーションを付加した最初の音声ロールプレイング評価データセットであるRoleChatを紹介する。
論文 参考訳(メタデータ) (2026-04-15T12:39:03Z) - I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations [9.275967682881944]
本稿では,大言語モデルが言語シボレスにどう反応するかを評価するための総合的なベンチマークを提案する。
等価な内容の質にもかかわらず,LLMが言語パターン,特にヘッジ言語を体系的にペナルティ化する方法を実証する。
我々は,複数の言語的側面に沿ったアプローチを検証し,ヘッジドレスポンスが平均25.6%低い評価を受けることを示した。
論文 参考訳(メタデータ) (2025-08-06T23:51:03Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Spoken Grammar Assessment Using LLM [10.761744330206065]
音声言語評価システム(SLA: Spoken Language Assessment)は, 話者の発音と口頭流速を分析し, 読み上げ音声と自発音声をそれぞれ分析する。
ほとんどのWLAシステムは、キュレートされた有限サイズの文データベースから一連の文を表示し、テスト質問を予測し、自分自身を訓練することができる。
音声音声から言語文法を評価するための新しいエンドツーエンドSLAシステムを提案し、WLAシステムを冗長にする。
論文 参考訳(メタデータ) (2024-10-02T14:15:13Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - Investigating model performance in language identification: beyond
simple error statistics [28.128924654154087]
言語開発の専門家は、流動的で会話的なスピーチから言語を自動的に識別するツールを必要としている。
本研究では,言語特性の異なる個々の録音や音声単位に対して,多くの言語識別システムがどの程度機能するかを検討する。
論文 参考訳(メタデータ) (2023-05-30T10:32:53Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。