論文の概要: Bigger is not Always Better: The Effect of Context Size on Speech
Pre-Training
- arxiv url: http://arxiv.org/abs/2312.01515v1
- Date: Sun, 3 Dec 2023 22:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:56:17.427624
- Title: Bigger is not Always Better: The Effect of Context Size on Speech
Pre-Training
- Title(参考訳): 大きい方が良いとは限らない: 音声事前学習における文脈サイズの影響
- Authors: Sean Robertson and Ewan Dunbar
- Abstract要約: 自己教師型学習を用いて,高品質な事前学習音響モデルを実現するためには,どの程度のコンテキストが必要かを検討する。
その結果,先行する文脈の約40msで,結果のモデル表現における音声の識別可能性がピークとなることがわかった。
このパターンは、事前学習された表現をフリーズ入力として使用すると、教師付きASRに転送される。
- 参考スコア(独自算出の注目度): 8.130638226288402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been generally assumed in the automatic speech recognition (ASR)
literature that it is better for models to have access to wider context
windows. Yet, many of the potential reasons this might be true in the
supervised setting do not necessarily transfer over to the case of unsupervised
learning. We investigate how much context is necessary to achieve high-quality
pre-trained acoustic models using self-supervised learning. We principally
investigate contrastive predictive coding (CPC), which we adapt to be able to
precisely control the amount of context visible to the model during training
and inference. We find that phone discriminability in the resulting model
representations peaks at around 40~ms of preceding context, and that having too
much context (beyond around 320 ms) substantially degrades the quality of the
representations. Surprisingly, we find that this pattern also transfers to
supervised ASR when the pre-trained representations are used as frozen input
features. Our results point to potential changes in the design of current
upstream architectures to better facilitate a variety of downstream tasks.
- Abstract(参考訳): 一般にASR(Automatic Speech Recognition)の文献では、より広いコンテキストウインドウにアクセスできるモデルの方が優れていると仮定されている。
しかし、教師なし設定でこれが真である可能性のある多くの理由は、教師なし学習の場合に必ずしも受け継がれるわけではない。
自己教師付き学習を用いて,高品質な事前学習音響モデルを実現するために,文脈がどの程度必要かを検討する。
主に、トレーニングや推論中にモデルに表示されるコンテキストの量を正確に制御できるように適応するコントラスト予測符号化(CPC)について検討する。
結果のモデル表現における電話の識別性は、先行する文脈の40~ms程度でピークに達し、コンテキストが多すぎると表現の質が大幅に低下する(約320ms以上)。
驚くことに、このパターンは、事前学習された表現をフリーズ入力機能として使用する場合、教師付きASRにも転送される。
我々の結果は、様々な下流タスクをより促進するために、現在の上流アーキテクチャの設計の変更の可能性を示している。
関連論文リスト
- Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - In-Context Learning with Transformers: Softmax Attention Adapts to Function Lipschitzness [43.70647711168682]
In the role of softmax attention in a ICL setting where each context encodes a regression task。
注意ユニットは、事前学習タスクのランドスケープに適応した最寄りの予測器を実装するために使用するウィンドウを学習する。
また、低ランク線形問題において、注目部は推論の前に適切な部分空間に投影することを学ぶ。
論文 参考訳(メタデータ) (2024-02-18T16:37:32Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。