Fugu-MT 論文翻訳(概要): Can Whisper perform speech-based in-context learning?

論文の概要: Can Whisper perform speech-based in-context learning?

arxiv url: http://arxiv.org/abs/2309.07081v2
Date: Wed, 20 Mar 2024 03:04:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 22:37:29.184849
Title: Can Whisper perform speech-based in-context learning?
Title（参考訳）: Whisperは音声によるインコンテキスト学習を実行できるか?
Authors: Siyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang,
Abstract要約: 本稿では,OpenAIがリリースしたWhisper自動音声認識(ASR)モデルのコンテキスト内学習能力について検討する。単語誤り率 (WER) を低減できる, テスト時間適応のための新しい音声ベースインコンテキスト学習 (SICL) 手法を提案する。中国語方言を用いた言語レベルの適応実験により、SICLを孤立語ASRに適用する場合、一貫した相対的なWER削減が達成できることが示された。
参考スコア（独自算出の注目度）: 15.931776592470895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates the in-context learning abilities of the Whisper automatic speech recognition (ASR) models released by OpenAI. A novel speech-based in-context learning (SICL) approach is proposed for test-time adaptation, which can reduce the word error rates (WERs) with only a small number of labelled speech samples without gradient descent. Language-level adaptation experiments using Chinese dialects showed that when applying SICL to isolated word ASR, consistent and considerable relative WER reductions can be achieved using Whisper models of any size on two dialects, which is on average 32.3%. A k-nearest-neighbours-based in-context example selection technique can be applied to further improve the efficiency of SICL, which can increase the average relative WER reduction to 36.4%. The findings are verified using speaker adaptation or continuous speech recognition tasks, and both achieved considerable relative WER reductions. Detailed quantitative analyses are also provided to shed light on SICL's adaptability to phonological variances and dialect-specific lexical nuances.
Abstract（参考訳）: 本稿では,OpenAIがリリースしたWhisper自動音声認識(ASR)モデルのコンテキスト内学習能力について検討する。単語誤り率 (WER) を, 勾配下降を伴わない少数のラベル付き音声サンプルで削減できる, テスト時間適応のための新しい音声ベースインコンテキストラーニング (SICL) 手法を提案する。中国語の方言を用いた言語レベルの適応実験では、SICLを孤立した単語ASRに適用する場合、平均32.3%のWhisperモデルを用いて、一貫した相対的なWER削減を実現することができた。 k-nearest-neighbours-based in-context example selection techniqueを適用すれば、SICLの効率をさらに向上することができ、平均相対的なWER低減を36.4%に向上させることができる。これらの結果は話者適応や連続音声認識タスクを用いて検証され、両者ともかなり相対的なWER削減を実現した。詳細な定量的分析も提供され、SICLの音韻的変化や方言固有の語彙への適応性に光を当てている。

関連論文リスト

TICL+: A Case Study On Speech In-Context Learning for Children's Speech Recognition [27.013776992438086]
音声基礎モデルは、音声インテクスト学習(SICL)を通してこれらの課題に対処できる我々は,既存の検索手法であるテキスト埋め込みKNN for SICL (TICL)を拡張し,TICL+を作成する音響再構成ステップを導入する。 4人の子どもの音声コーパスの実験では、TICL+はゼロショット性能よりも53.3%の単語誤り率の低下を達成している。
論文参考訳（メタデータ） (2025-12-20T08:03:07Z)
TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models [27.013776992438086]
SICL(TICL)のためのテキスト埋め込みKNNを提案する。提案手法により, 最大84.7%のWER削減率でゼロショット性能を超えることができる。
論文参考訳（メタデータ） (2025-09-16T17:07:23Z)
SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文参考訳（メタデータ） (2025-07-25T15:12:06Z)
AS-ASR: A Lightweight Framework for Aphasia-Specific Automatic Speech Recognition [4.70623940988391]
AS-ASRはWhisper-tinyに基づく軽量な失語特異的音声認識フレームワークである。提案手法は,様々な比率で標準音声と失語音声を体系的に組み合わせ,ロバストな一般化を実現する。
論文参考訳（メタデータ） (2025-06-06T22:38:53Z)
Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文参考訳（メタデータ） (2024-01-19T01:29:27Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。 TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文参考訳（メタデータ） (2023-05-30T09:57:36Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文参考訳（メタデータ） (2022-02-17T19:47:50Z)
An Approach to Mispronunciation Detection and Diagnosis with Acoustic, Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文参考訳（メタデータ） (2021-10-14T11:25:02Z)
Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-14T12:30:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。