論文の概要: Evaluation of LLMs in Speech is Often Flawed: Test Set Contamination in Large Language Models for Speech Recognition
- arxiv url: http://arxiv.org/abs/2505.22251v2
- Date: Thu, 05 Jun 2025 10:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.118118
- Title: Evaluation of LLMs in Speech is Often Flawed: Test Set Contamination in Large Language Models for Speech Recognition
- Title(参考訳): 音声認識におけるLLMの評価 : 音声認識のための大規模言語モデルにおけるテストセット汚染
- Authors: Yuan Tseng, Titouan Parcollet, Rogier van Dalen, Shucong Zhang, Sourav Bhattacharya,
- Abstract要約: 本研究は,LLMプレトレーニングコーパスにLibriSpeechとCommon Voiceの評価セットのかなりの量が現れることを明らかにする。
汚染影響を測定するために、汚染を伴わずに訓練されたLLMを比較した。
その結果,LSMの出力は少量のデータ汚染によってバイアスを受けることができることがわかった。
- 参考スコア(独自算出の注目度): 16.1813157127555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work suggests that large language models (LLMs) can improve performance of speech tasks compared to existing systems. To support their claims, results on LibriSpeech and Common Voice are often quoted. However, this work finds that a substantial amount of the LibriSpeech and Common Voice evaluation sets appear in public LLM pretraining corpora. This calls into question the reliability of findings drawn from these two datasets. To measure contamination impact, LLMs trained with/without contamination are compared. A contaminated LLM is more likely to generate test sentences it has seen during training. Then, speech recognisers based on LLMs are compared. They show only subtle error rate differences if the LLM is contaminated, but assign significantly higher probabilities to transcriptions seen during LLM training. Results show that LLM outputs can be biased by tiny amounts of data contamination, highlighting the importance of evaluating LLM-based speech systems with held-out data.
- Abstract(参考訳): 最近の研究は,大規模言語モデル (LLM) が既存のシステムと比較して音声タスクの性能を向上させることを示唆している。
彼らの主張を支持するために、LibriSpeechとCommon Voiceの結果がしばしば引用される。
しかし,この研究により,LLMプレトレーニングコーパスには,LibriSpeechとCommon Voiceの評価セットのかなりの量が現れることがわかった。
これにより、これらの2つのデータセットから得られた結果の信頼性が疑問視される。
汚染影響を測定するために、汚染を伴わずに訓練されたLLMを比較した。
汚染されたLLMは、トレーニング中に見たテスト文を生成する可能性が高い。
次に、LLMに基づく音声認識の比較を行う。
LLMが汚染された場合にのみ微妙なエラー率差を示すが、LLMトレーニング中に見られる転写にかなり高い確率を割り当てる。
その結果, LLM の出力は少量のデータ汚染によってバイアスを受けやすく, ホールドアウトデータを用いた LLM ベースの音声システムの評価の重要性が浮き彫りになった。
関連論文リスト
- Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。
以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。
コードとデータセットを公開しています。
論文 参考訳(メタデータ) (2024-10-21T14:47:37Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Are LLMs Good Annotators for Discourse-level Event Relation Extraction? [15.365993658296016]
談話レベルの事象関係抽出タスクにおけるLarge Language Models (LLMs) の有効性を評価する。
商用モデル GPT-3.5 とオープンソースモデル LLaMA-2 を用いて評価を行った。
論文 参考訳(メタデータ) (2024-07-28T19:27:06Z) - Data Contamination Can Cross Language Barriers [29.103517721155487]
大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。
まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。
本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T05:53:27Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。
良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-19T14:00:39Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。