論文の概要: Generative Context-aware Fine-tuning of Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2312.09895v1
- Date: Fri, 15 Dec 2023 15:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:05:34.073789
- Title: Generative Context-aware Fine-tuning of Self-supervised Speech Models
- Title(参考訳): 自己教師型音声モデルの文脈認識による微調整
- Authors: Suwon Shon, Kwangyoun Kim, Prashant Sridhar, Yi-Te Hsu, Shinji
Watanabe, Karen Livescu
- Abstract要約: 生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
- 参考スコア(独自算出の注目度): 54.389711404209415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When performing tasks like automatic speech recognition or spoken language
understanding for a given utterance, access to preceding text or audio provides
contextual information can improve performance. Considering the recent advances
in generative large language models (LLM), we hypothesize that an LLM could
generate useful context information using the preceding text. With appropriate
prompts, LLM could generate a prediction of the next sentence or abstractive
text like titles or topics. In this paper, we study the use of LLM-generated
context information and propose an approach to distill the generated
information during fine-tuning of self-supervised speech models, which we refer
to as generative context-aware fine-tuning. This approach allows the fine-tuned
model to make improved predictions without access to the true surrounding
segments or to the LLM at inference time, while requiring only a very small
additional context module. We evaluate the proposed approach using the SLUE and
Libri-light benchmarks for several downstream tasks: automatic speech
recognition, named entity recognition, and sentiment analysis. The results show
that generative context-aware fine-tuning outperforms a context injection
fine-tuning approach that accesses the ground-truth previous text, and is
competitive with a generative context injection fine-tuning approach that
requires the LLM at inference time.
- Abstract(参考訳): 発話の自動音声認識や音声理解などのタスクを実行する場合、先行するテキストや音声へのアクセスが文脈情報を提供することにより、パフォーマンスが向上する。
生成型大規模言語モデル(LLM)の最近の進歩を考えると,LLMは先行するテキストを用いて有用な文脈情報を生成できるという仮説を立てる。
適切なプロンプトによって、LLMは次の文やタイトルやトピックのような抽象的なテキストの予測を生成することができる。
本稿では,llmが生成する文脈情報の利用について検討し,自己教師付き音声モデルの微調整中に生成された情報を蒸留する手法を提案する。
このアプローチにより、微調整されたモデルでは、実際の周辺セグメントや推論時にLLMにアクセスすることなく、さらに小さな追加コンテキストモジュールを必要とすることなく、予測を改善することができる。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
その結果, 生成コンテキスト認識による微調整は, 先行テキストにアクセスする文脈注入細調整アプローチよりも優れており, 推論時にLLMを必要とする生成コンテキスト注入細調整アプローチと競合することがわかった。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。
本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-06-10T02:04:28Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。