論文の概要: Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation
- arxiv url: http://arxiv.org/abs/2005.08213v2
- Date: Sat, 8 Aug 2020 07:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:52:58.326233
- Title: Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation
- Title(参考訳): テキスト適応への音声:効率的なクロスモーダル蒸留を目指して
- Authors: Won Ik Cho, Donghyun Kwak, Ji Won Yoon, Nam Soo Kim
- Abstract要約: 音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
- 参考スコア(独自算出の注目度): 15.225080891662675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is one of the most effective means of communication and is full of
information that helps the transmission of utterer's thoughts. However, mainly
due to the cumbersome processing of acoustic features, phoneme or word
posterior probability has frequently been discarded in understanding the
natural language. Thus, some recent spoken language understanding (SLU) modules
have utilized end-to-end structures that preserve the uncertainty information.
This further reduces the propagation of speech recognition error and guarantees
computational efficiency. We claim that in this process, the speech
comprehension can benefit from the inference of massive pre-trained language
models (LMs). We transfer the knowledge from a concrete Transformer-based text
LM to an SLU module which can face a data shortage, based on recent cross-modal
distillation methodologies. We demonstrate the validity of our proposal upon
the performance on Fluent Speech Command, an English SLU benchmark. Thereby, we
experimentally verify our hypothesis that the knowledge could be shared from
the top layer of the LM to a fully speech-based module, in which the abstracted
speech is expected to meet the semantic representation.
- Abstract(参考訳): 音声はコミュニケーションの最も効果的な手段の1つであり、発話者の思考の伝達に役立つ情報で溢れている。
しかし,音素,音素,単語後部確率は,音素の処理が面倒なため,自然言語の理解においてしばしば捨てられている。
このように、最近の音声言語理解(SLU)モジュールは、不確実性情報を保存するエンドツーエンド構造を利用している。
これにより、音声認識エラーの伝播が減少し、計算効率が保証される。
このプロセスでは,大規模な事前学習言語モデル (LM) の推測から,音声理解が有効であると主張する。
近年のクロスモーダル蒸留法に基づいて,具体的なトランスフォーマーベースのテキストLMからデータ不足に直面するSLUモジュールに知識を伝達する。
本稿では,英語SLUベンチマークであるFluent Speech Commandの性能に対する提案の有効性を示す。
そこで本研究では,この知識をlmの上層層から,抽象音声が意味表現に適合することが期待される完全音声ベースモジュールに共有できるという仮説を実験的に検証した。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Improving Spoken Language Understanding By Exploiting ASR N-best
Hypotheses [22.332683746361294]
自然言語理解(NLU)モジュールは、自動音声認識(ASR)モジュールから音声を入力として解釈する。
ASRモジュールは一部の音声を誤認識する可能性があり、最初の最良の解釈は誤認とノイズである可能性がある。
入力音声のセマンティクスの理解を改善するための,単純かつ効率的なモデルをいくつか導入する。
論文 参考訳(メタデータ) (2020-01-11T05:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。