論文の概要: Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization
- arxiv url: http://arxiv.org/abs/2305.11095v3
- Date: Wed, 16 Aug 2023 00:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 10:29:18.154354
- Title: Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization
- Title(参考訳): ゼロショットタスク一般化のためのwebスケール音声モデルの隠れた人材育成
- Authors: Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath
- Abstract要約: 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 61.60501633397704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the emergent abilities of the recently proposed web-scale
speech model Whisper, by adapting it to unseen tasks with prompt engineering.
We selected three tasks: audio-visual speech recognition (AVSR), code-switched
speech recognition (CS-ASR), and speech translation (ST) on unseen language
pairs. We design task-specific prompts, by either leveraging another
large-scale model, or simply manipulating the special tokens in the default
prompts. Experiments show that compared to the default prompts, our proposed
prompts improve performance by 10% to 45% on the three zero-shot tasks, and
even outperform SotA supervised models on some datasets. In addition, our
experiments reveal many interesting properties of Whisper, including its
robustness to prompts, bias on accents, and the multilingual understanding in
its latent space. Code is available at
https://github.com/jasonppy/PromptingWhisper
- Abstract(参考訳): 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
音声視覚音声認識(AVSR)、コードスイッチト音声認識(CS-ASR)、音声翻訳(ST)の3つのタスクを選択した。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果、デフォルトのプロンプトと比較して、3つのゼロショットタスクで10%から45%のパフォーマンスが向上し、いくつかのデータセットでsata教師付きモデルよりも優れています。
さらに,本実験では,発話に対する頑健性,アクセントの偏り,潜在空間における多言語理解など,whisperの多くの興味深い特徴が明らかにされている。
コードはhttps://github.com/jasonppy/promptingwhisperで入手できる。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning [43.71388370559826]
本稿では,話者と韻律情報の理解を高めるために,複数話者の発話スタイルのキャプションタスクを提案する。
大規模言語モデルを用いて、多話者音声の記述を生成する。
このキャプションタスクで事前学習を行い,指導訓練を行った。
論文 参考訳(メタデータ) (2024-08-25T17:05:26Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - What shall we do with an hour of data? Speech recognition for the un-
and under-served languages of Common Voice [0.20774268785384567]
本報告では,共通音声プロジェクトの31言語を対象に,デプロイ可能な音声認識モデルを作成するための3週間のスプリントの方法と結果について述べる。
論文 参考訳(メタデータ) (2021-05-10T21:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。