論文の概要: Instruction-Following Speech Recognition
- arxiv url: http://arxiv.org/abs/2309.09843v1
- Date: Mon, 18 Sep 2023 14:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:51:48.368387
- Title: Instruction-Following Speech Recognition
- Title(参考訳): 指示追従音声認識
- Authors: Cheng-I Jeff Lai, Zhiyun Lu, Liangliang Cao, Ruoming Pang
- Abstract要約: 本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
- 参考スコア(独自算出の注目度): 21.591086644665197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional end-to-end Automatic Speech Recognition (ASR) models primarily
focus on exact transcription tasks, lacking flexibility for nuanced user
interactions. With the advent of Large Language Models (LLMs) in speech
processing, more organic, text-prompt-based interactions have become possible.
However, the mechanisms behind these models' speech understanding and
"reasoning" capabilities remain underexplored. To study this question from the
data perspective, we introduce instruction-following speech recognition,
training a Listen-Attend-Spell model to understand and execute a diverse set of
free-form text instructions. This enables a multitude of speech recognition
tasks -- ranging from transcript manipulation to summarization -- without
relying on predefined command sets. Remarkably, our model, trained from scratch
on Librispeech, interprets and executes simple instructions without requiring
LLMs or pre-trained speech modules. It also offers selective transcription
options based on instructions like "transcribe first half and then turn off
listening," providing an additional layer of privacy and safety compared to
existing LLMs. Our findings highlight the significant potential of
instruction-following training to advance speech foundation models.
- Abstract(参考訳): 従来のエンドツーエンド自動音声認識(ASR)モデルは、主に正確な転写タスクに重点を置いており、微妙なユーザインタラクションの柔軟性に欠ける。
音声処理におけるLarge Language Models(LLM)の出現により、より有機的でテキストプロンプトに基づく対話が可能になった。
しかし、これらのモデルの音声理解と「推論」能力のメカニズムはいまだ解明されていない。
データの観点からこの問題を研究するために,命令追従音声認識を導入し,多様な自由形式のテキスト命令を理解し実行するためのリステン・アテンド・スペルモデルを訓練する。
これにより、事前定義されたコマンドセットに頼ることなく、書き起こし操作から要約まで、多数の音声認識タスクが可能になる。
このモデルは,LLMや事前学習した音声モジュールを必要とせずに,簡単な命令を解釈し,実行することができる。
のような命令に基づいて選択的に書き起こしオプションを提供し、既存のLCMと比べてプライバシーと安全性の付加層を提供する。
本研究は,音声基礎モデルにおける指導追従訓練の意義を明らかにするものである。
関連論文リスト
- BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment
of Continuation Writing [36.83984780648144]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z) - LMs with a Voice: Spoken Language Modeling beyond Speech Tokens [21.904742779710062]
SPECTRONは、事前訓練された言語モデル(LM)を用いて音声継続を行うための新しいアプローチである。
事前学習した音声エンコーダを利用することで、本モデルはテキストと音声の両方の出力を生成し、システム全体がスペクトル上で直接操作するエンドツーエンドの訓練を行う。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。