Fugu-MT 論文翻訳(概要): Generative Context-aware Fine-tuning of Self-supervised Speech Models

論文の概要: Generative Context-aware Fine-tuning of Self-supervised Speech Models

arxiv url: http://arxiv.org/abs/2312.09895v1
Date: Fri, 15 Dec 2023 15:46:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 15:05:34.073789
Title: Generative Context-aware Fine-tuning of Self-supervised Speech Models
Title（参考訳）: 自己教師型音声モデルの文脈認識による微調整
Authors: Suwon Shon, Kwangyoun Kim, Prashant Sridhar, Yi-Te Hsu, Shinji Watanabe, Karen Livescu
Abstract要約: 生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
参考スコア（独自算出の注目度）: 54.389711404209415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When performing tasks like automatic speech recognition or spoken language understanding for a given utterance, access to preceding text or audio provides contextual information can improve performance. Considering the recent advances in generative large language models (LLM), we hypothesize that an LLM could generate useful context information using the preceding text. With appropriate prompts, LLM could generate a prediction of the next sentence or abstractive text like titles or topics. In this paper, we study the use of LLM-generated context information and propose an approach to distill the generated information during fine-tuning of self-supervised speech models, which we refer to as generative context-aware fine-tuning. This approach allows the fine-tuned model to make improved predictions without access to the true surrounding segments or to the LLM at inference time, while requiring only a very small additional context module. We evaluate the proposed approach using the SLUE and Libri-light benchmarks for several downstream tasks: automatic speech recognition, named entity recognition, and sentiment analysis. The results show that generative context-aware fine-tuning outperforms a context injection fine-tuning approach that accesses the ground-truth previous text, and is competitive with a generative context injection fine-tuning approach that requires the LLM at inference time.
Abstract（参考訳）: 発話の自動音声認識や音声理解などのタスクを実行する場合、先行するテキストや音声へのアクセスが文脈情報を提供することにより、パフォーマンスが向上する。生成型大規模言語モデル(LLM)の最近の進歩を考えると,LLMは先行するテキストを用いて有用な文脈情報を生成できるという仮説を立てる。適切なプロンプトによって、LLMは次の文やタイトルやトピックのような抽象的なテキストの予測を生成することができる。本稿では,llmが生成する文脈情報の利用について検討し,自己教師付き音声モデルの微調整中に生成された情報を蒸留する手法を提案する。このアプローチにより、微調整されたモデルでは、実際の周辺セグメントや推論時にLLMにアクセスすることなく、さらに小さな追加コンテキストモジュールを必要とすることなく、予測を改善することができる。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。その結果, 生成コンテキスト認識による微調整は, 先行テキストにアクセスする文脈注入細調整アプローチよりも優れており, 推論時にLLMを必要とする生成コンテキスト注入細調整アプローチと競合することがわかった。

関連論文リスト

From Logs to Language: Learning Optimal Verbalization for LLM-Based Recommendation in Production [29.57558449488602]
大規模言語モデル(LLM)は、生成レコメンデーションシステムのための将来的なバックボーンである。 LLMに基づくレコメンデーションの言語化を学習するデータ中心フレームワークを提案する。大規模産業ストリーミングデータセットの実験では、学習した言語化によって、発見項目の推奨精度が最大93%向上することが示された。
論文参考訳（メタデータ） (2026-02-24T05:15:24Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
テキスト対応音声トークン化と埋め込み(TASTE)について紹介する。 TASTEは、音声トークンと対応するテキストの書き起こしをトークン化段階で整列させることにより、モダリティギャップに直接対処する手法である。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文参考訳（メタデータ） (2024-06-10T02:04:28Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。 VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文参考訳（メタデータ） (2024-02-23T07:21:32Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文参考訳（メタデータ） (2022-12-16T15:46:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。