論文の概要: Effective Context in Neural Speech Models
- arxiv url: http://arxiv.org/abs/2505.22487v1
- Date: Wed, 28 May 2025 15:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.699641
- Title: Effective Context in Neural Speech Models
- Title(参考訳): ニューラル音声モデルにおける効果的な文脈
- Authors: Yen Meng, Sharon Goldwater, Hao Tang,
- Abstract要約: そこで本稿では,有効文脈を測定するための2つの手法を提案する。
教師付きモデルでは, 有効文脈はタスクの性質とよく相関し, 基本周波数追跡, 音声分類, 単語分類を行う。
自己教師付きモデルの場合、効果的なコンテキストは主に初期層で増加し、教師付き電話モデルと同様、比較的短いままである。
- 参考スコア(独自算出の注目度): 14.636249406848899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural speech models benefit from having longer context, and many approaches have been proposed to increase the maximum context a model can use. However, few have attempted to measure how much context these models actually use, i.e., the effective context. Here, we propose two approaches to measuring the effective context, and use them to analyze different speech Transformers. For supervised models, we find that the effective context correlates well with the nature of the task, with fundamental frequency tracking, phone classification, and word classification requiring increasing amounts of effective context. For self-supervised models, we find that effective context increases mainly in the early layers, and remains relatively short -- similar to the supervised phone model. Given that these models do not use a long context during prediction, we show that HuBERT can be run in streaming mode without modification to the architecture and without further fine-tuning.
- Abstract(参考訳): 現代のニューラルスピーチモデルは、より長いコンテキストを持つことの恩恵を受けており、モデルが利用できる最大コンテキストを増やすために多くのアプローチが提案されている。
しかしながら、これらのモデルが実際にどの程度の文脈、すなわち効果的な文脈を使用するかを測ろうとする試みはほとんどない。
そこで本研究では,有効文脈を測定するための2つの手法を提案し,異なる音声変換器の解析に使用する。
教師付きモデルでは, 有効文脈はタスクの性質とよく相関し, 基本周波数追跡, 音声分類, 単語分類を行う。
自己教師付きモデルの場合、効果的なコンテキストは主に初期層で増加し、教師付き電話モデルと同様、比較的短いままである。
これらのモデルが予測中に長いコンテキストを使用しないことを考えると、HuBERTはアーキテクチャを変更することなく、さらに微調整することなく、ストリーミングモードで実行可能であることを示す。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Context-Adaptive Deep Neural Networks via Bridge-Mode Connectivity [2.294014185517203]
文脈依存型モデルを学習するための新しい手法を開発した。
複数のレンズを用いた分類タスクにおける文脈定義について検討する。
実験では、モデルの性能が各シナリオのコンテキストに合わせてうまく調整できることが示されている。
論文 参考訳(メタデータ) (2022-11-28T15:21:54Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。