Fugu-MT 論文翻訳(概要): Evaluation of Automatic Speech Recognition Using Generative Large Language Models

論文の概要: Evaluation of Automatic Speech Recognition Using Generative Large Language Models

arxiv url: http://arxiv.org/abs/2604.21928v1
Date: Thu, 23 Apr 2026 17:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.828358
Title: Evaluation of Automatic Speech Recognition Using Generative Large Language Models
Title（参考訳）: 生成型大言語モデルを用いた音声認識の評価
Authors: Thibault Bañeras-Roux, Shashi Kumar, Driss Khalil, Sergio Burdisso, Petr Motlicek, Shiran Liu, Mickael Rouvier, Jane Wottawa, Richard Dufour,
Abstract要約: 本稿では,音声認識評価におけるLarge Language Models (LLMs) の有効性について検討する。最高のLCMは、仮説選択のための人間のアノテータとの92-94%の合意を達成する。デコーダベースのLCMの埋め込みは、エンコーダモデルに匹敵する性能を示す。
参考スコア（独自算出の注目度）: 13.666045109234107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Speech Recognition (ASR) is traditionally evaluated using Word Error Rate (WER), a metric that is insensitive to meaning. Embedding-based semantic metrics are better correlated with human perception, but decoder-based Large Language Models (LLMs) remain underexplored for this task. This paper evaluates their relevance through three approaches: (1) selecting the best hypothesis between two candidates, (2) computing semantic distance using generative embeddings, and (3) qualitative classification of errors. On the HATS dataset, the best LLMs achieve 92--94\% agreement with human annotators for hypothesis selection, compared to 63\% for WER, also outperforming semantic metrics. Embeddings from decoder-based LLMs show performance comparable to encoder models. Finally, LLMs offer a promising direction for interpretable and semantic ASR evaluation.
Abstract（参考訳）: 音声認識(ASR)は従来,意味に敏感な単語誤り率(WER)を用いて評価されてきた。埋め込みベースのセマンティックメトリクスは人間の知覚と相関するが、デコーダベースのLarge Language Models (LLMs) はこの課題に対して未検討のままである。本稿では,(1)2つの候補間の最良の仮説の選択,(2)生成的埋め込みを用いた意味的距離の計算,(3)誤りの定性的な分類という3つの手法を用いて,それらの関連性を評価する。 HATSデータセットでは、最高のLLMが仮説選択のために人間のアノテータと92-94-%の合意を達成しているのに対し、WERは63-%であり、セマンティックメトリクスよりも優れています。デコーダベースのLCMの埋め込みは、エンコーダモデルに匹敵する性能を示す。最後に、LLMは、解釈および意味論的ASR評価のための有望な方向を提供する。

関連論文リスト

Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。 LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文参考訳（メタデータ） (2025-07-13T04:21:21Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models [40.94659575657584]
本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。 ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
論文参考訳（メタデータ） (2024-02-06T09:50:08Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Towards Computationally Verifiable Semantic Grounding for Language Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。 LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文参考訳（メタデータ） (2022-11-16T17:35:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。