論文の概要: Re-evaluating Minimum Bayes Risk Decoding for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2510.19471v1
- Date: Wed, 22 Oct 2025 11:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.72116
- Title: Re-evaluating Minimum Bayes Risk Decoding for Automatic Speech Recognition
- Title(参考訳): 音声認識のための最小ベイズリスク復号法の再評価
- Authors: Yuu Jinnai,
- Abstract要約: 最小ベイズリスク(MBR)復号化はテキスト対テキスト生成タスクに有効である。
ビームサーチは、自動音声認識(ASR)や音声翻訳(ST)のような音声からテキストへのタスクの現在の実践である
- 参考スコア(独自算出の注目度): 16.295305195753723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that sample-based Minimum Bayes Risk (MBR) decoding outperforms beam search in text-to-text generation tasks, such as machine translation, text summarization, and image captioning. On the other hand, beam search is the current practice for speech-to-text tasks such as automatic speech recognition (ASR) and Speech Translation (ST). Given that MBR decoding is effective in text-to-text generation tasks, it is reasonable to expect it to also be effective for speech-to-text tasks. In this paper, we evaluate MBR decoding for ASR and ST tasks on English and Japanese using Whisper and its derivative models. We observe that the accuracy of MBR decoding outperforms that of beam search in most of the experimental settings we have evaluated. The results show that MBR decoding is a promising method for offline ASR and ST tasks that require high accuracy. The code is available at https://github.com/CyberAgentAILab/mbr-for-asr
- Abstract(参考訳): 近年,サンプルベースの最小ベイズリスク (MBR) 復号化は,機械翻訳,テキスト要約,画像キャプションなどのテキスト・テキスト生成タスクにおいて,ビーム探索に優れることが示された。
一方,ビームサーチは,音声認識 (ASR) や音声翻訳 (ST) といった音声からテキストへのタスクの現在的な実践である。
MBR復号化がテキスト・テキスト生成タスクに有効であることを考えると、音声・テキスト・タスクにも有効であると期待することは妥当である。
本稿では,Whisperとその派生モデルを用いて,英語と日本語のASRタスクとSTタスクのMBRデコーディングを評価する。
MBRデコーディングの精度は、評価した実験環境のほとんどにおいてビームサーチの精度よりも優れていることが観察された。
その結果, MBR復号化は, 高精度なオフラインASRおよびSTタスクのための有望な手法であることがわかった。
コードはhttps://github.com/CyberAgentAILab/mbr-for-asrで公開されている。
関連論文リスト
- Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal Transport [3.48097307252416]
文書レベルのテキスト生成タスクに対する最小ベイズリスク(MBR)デコードの適用について検討する。
MBRデコードでは、候補出力の集合から最も期待されたユーティリティで出力を推定するためにユーティリティ関数を利用する。
Wasserstein 距離を用いた MBR 復号法の一種である MBR-OT は文レベルユーティリティ関数を用いて文書の有用性を計算する。
論文 参考訳(メタデータ) (2025-05-29T04:34:04Z) - mbrs: A Library for Minimum Bayes Risk Decoding [27.207891251898904]
mbrsは最小ベイズリスク(MBR)デコーディングのライブラリである。
MBRはテキスト生成タスクの決定ルールであり、従来の最大値(MAP)復号よりも優れている。
私たちはMITライセンスのオープンソースプロジェクトとしてmbrsを公開しました。
論文 参考訳(メタデータ) (2024-08-08T02:28:32Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding [5.639904484784127]
最小ベイズリスクデコーディング(MBR)は、幅広いテキスト生成タスクに対するビームサーチデコーディングの強力な代替手段である。
MBRは、目的を計算するのに膨大な時間を必要とする。
CBP(Confidence-based pruning)は、最近機械翻訳タスクにおける推論時間を削減するために提案されている。
論文 参考訳(メタデータ) (2024-01-05T11:02:08Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and
Understanding [70.16678926775475]
MMOCRは、テキストの検出と認識のためのオープンソースのツールボックスである。
それは14の最先端のアルゴリズムを実装しており、これは私たちが現在知っているすべてのオープンソースのOCRプロジェクトよりも多い。
論文 参考訳(メタデータ) (2021-08-14T14:10:23Z) - Understanding the Properties of Minimum Bayes Risk Decoding in Neural
Machine Translation [26.33252528975464]
ニューラルマシン翻訳(nmt)は現在、短すぎる翻訳や頻繁な単語の過剰生成といったバイアスを示している。
最近の研究はこれらの欠点をビームサーチに結びつけている。
Eikema & Aziz (2020) は、代わりに最小ベイズリスク(MBR)デコードを使用することを提案した。
論文 参考訳(メタデータ) (2021-05-18T13:31:05Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。