論文の概要: Context-aware Fine-tuning of Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2212.08542v1
- Date: Fri, 16 Dec 2022 15:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:47:27.727878
- Title: Context-aware Fine-tuning of Self-supervised Speech Models
- Title(参考訳): 自己教師型音声モデルの文脈認識微調整
- Authors: Suwon Shon, Felix Wu, Kwangyoun Kim, Prashant Sridhar, Karen Livescu,
Shinji Watanabe
- Abstract要約: 微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Librilight のベンチマークを用いて提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 56.95389222319555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-trained transformers have improved the state of the art
on a variety of speech tasks. Due to the quadratic time and space complexity of
self-attention, they usually operate at the level of relatively short (e.g.,
utterance) segments. In this paper, we study the use of context, i.e.,
surrounding segments, during fine-tuning and propose a new approach called
context-aware fine-tuning. We attach a context module on top of the last layer
of a pre-trained model to encode the whole segment into a context embedding
vector which is then used as an additional feature for the final prediction.
During the fine-tuning stage, we introduce an auxiliary loss that encourages
this context embedding vector to be similar to context vectors of surrounding
segments. This allows the model to make predictions without access to these
surrounding segments at inference time and requires only a tiny overhead
compared to standard fine-tuned models. We evaluate the proposed approach using
the SLUE and Librilight benchmarks for several downstream tasks: Automatic
speech recognition (ASR), named entity recognition (NER), and sentiment
analysis (SA). The results show that context-aware fine-tuning not only
outperforms a standard fine-tuning baseline but also rivals a strong context
injection baseline that uses neighboring speech segments during inference.
- Abstract(参考訳): 自己教師付き事前訓練型トランスフォーマーは、様々な音声タスクにおける技術状況を改善した。
自己アテンションの二次時間と空間複雑性のために、それらは通常比較的短いセグメント(例えば発話)のレベルで作用する。
本稿では, ファインチューニングにおけるコンテキスト, 周辺セグメントの利用について検討し, コンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
事前学習したモデルの最後のレイヤの上にコンテキストモジュールをアタッチして、セグメント全体をコンテキスト埋め込みベクトルにエンコードし、最終予測のための追加機能として使用します。
微調整の段階では、このコンテキスト埋め込みベクトルを周囲のセグメントのコンテキストベクトルに類似させる補助的損失を導入する。
これにより、モデルが推論時にこれらの周辺セグメントにアクセスせずに予測を行うことができ、標準の微調整モデルに比べてほんの少しのオーバーヘッドしか必要としない。
本稿では,SLUE と Librilight のベンチマークを用いて,音声認識 (ASR) やエンティティ認識 (NER) ,感情分析 (SA) など,いくつかの下流タスクに対して提案手法を評価する。
その結果、文脈認識による微調整は、標準的な微調整ベースラインを上回るだけでなく、推論中に隣接する音声セグメントを使用する強い文脈注入ベースラインと競合することがわかった。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Internal language model estimation through explicit context vector
learning for attention-based encoder-decoder ASR [19.233720469733797]
本稿では,Lens-Attend-Spell(LAS)モデルに基づく2つの新しい手法を提案する。
実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:47:27Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。
我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文 参考訳(メタデータ) (2020-08-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。