論文の概要: Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization
- arxiv url: http://arxiv.org/abs/2305.11095v3
- Date: Wed, 16 Aug 2023 00:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 10:29:18.154354
- Title: Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization
- Title(参考訳): ゼロショットタスク一般化のためのwebスケール音声モデルの隠れた人材育成
- Authors: Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath
- Abstract要約: 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 61.60501633397704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the emergent abilities of the recently proposed web-scale
speech model Whisper, by adapting it to unseen tasks with prompt engineering.
We selected three tasks: audio-visual speech recognition (AVSR), code-switched
speech recognition (CS-ASR), and speech translation (ST) on unseen language
pairs. We design task-specific prompts, by either leveraging another
large-scale model, or simply manipulating the special tokens in the default
prompts. Experiments show that compared to the default prompts, our proposed
prompts improve performance by 10% to 45% on the three zero-shot tasks, and
even outperform SotA supervised models on some datasets. In addition, our
experiments reveal many interesting properties of Whisper, including its
robustness to prompts, bias on accents, and the multilingual understanding in
its latent space. Code is available at
https://github.com/jasonppy/PromptingWhisper
- Abstract(参考訳): 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
音声視覚音声認識(AVSR)、コードスイッチト音声認識(CS-ASR)、音声翻訳(ST)の3つのタスクを選択した。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果、デフォルトのプロンプトと比較して、3つのゼロショットタスクで10%から45%のパフォーマンスが向上し、いくつかのデータセットでsata教師付きモデルよりも優れています。
さらに,本実験では,発話に対する頑健性,アクセントの偏り,潜在空間における多言語理解など,whisperの多くの興味深い特徴が明らかにされている。
コードはhttps://github.com/jasonppy/promptingwhisperで入手できる。
関連論文リスト
- SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - What shall we do with an hour of data? Speech recognition for the un-
and under-served languages of Common Voice [0.20774268785384567]
本報告では,共通音声プロジェクトの31言語を対象に,デプロイ可能な音声認識モデルを作成するための3週間のスプリントの方法と結果について述べる。
論文 参考訳(メタデータ) (2021-05-10T21:16:28Z) - SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network [45.59907668722702]
本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。
結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。
また, speechstew が強力な転送学習表現を学習することを示す。
論文 参考訳(メタデータ) (2021-04-05T20:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。