論文の概要: Generative Context-aware Fine-tuning of Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2312.09895v1
- Date: Fri, 15 Dec 2023 15:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:05:34.073789
- Title: Generative Context-aware Fine-tuning of Self-supervised Speech Models
- Title(参考訳): 自己教師型音声モデルの文脈認識による微調整
- Authors: Suwon Shon, Kwangyoun Kim, Prashant Sridhar, Yi-Te Hsu, Shinji
Watanabe, Karen Livescu
- Abstract要約: 生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
- 参考スコア(独自算出の注目度): 54.389711404209415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When performing tasks like automatic speech recognition or spoken language
understanding for a given utterance, access to preceding text or audio provides
contextual information can improve performance. Considering the recent advances
in generative large language models (LLM), we hypothesize that an LLM could
generate useful context information using the preceding text. With appropriate
prompts, LLM could generate a prediction of the next sentence or abstractive
text like titles or topics. In this paper, we study the use of LLM-generated
context information and propose an approach to distill the generated
information during fine-tuning of self-supervised speech models, which we refer
to as generative context-aware fine-tuning. This approach allows the fine-tuned
model to make improved predictions without access to the true surrounding
segments or to the LLM at inference time, while requiring only a very small
additional context module. We evaluate the proposed approach using the SLUE and
Libri-light benchmarks for several downstream tasks: automatic speech
recognition, named entity recognition, and sentiment analysis. The results show
that generative context-aware fine-tuning outperforms a context injection
fine-tuning approach that accesses the ground-truth previous text, and is
competitive with a generative context injection fine-tuning approach that
requires the LLM at inference time.
- Abstract(参考訳): 発話の自動音声認識や音声理解などのタスクを実行する場合、先行するテキストや音声へのアクセスが文脈情報を提供することにより、パフォーマンスが向上する。
生成型大規模言語モデル(LLM)の最近の進歩を考えると,LLMは先行するテキストを用いて有用な文脈情報を生成できるという仮説を立てる。
適切なプロンプトによって、LLMは次の文やタイトルやトピックのような抽象的なテキストの予測を生成することができる。
本稿では,llmが生成する文脈情報の利用について検討し,自己教師付き音声モデルの微調整中に生成された情報を蒸留する手法を提案する。
このアプローチにより、微調整されたモデルでは、実際の周辺セグメントや推論時にLLMにアクセスすることなく、さらに小さな追加コンテキストモジュールを必要とすることなく、予測を改善することができる。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
その結果, 生成コンテキスト認識による微調整は, 先行テキストにアクセスする文脈注入細調整アプローチよりも優れており, 推論時にLLMを必要とする生成コンテキスト注入細調整アプローチと競合することがわかった。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。