論文の概要: Improved Speech Representations with Multi-Target Autoregressive
Predictive Coding
- arxiv url: http://arxiv.org/abs/2004.05274v1
- Date: Sat, 11 Apr 2020 01:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 10:17:23.331667
- Title: Improved Speech Representations with Multi-Target Autoregressive
Predictive Coding
- Title(参考訳): 多目的自己回帰予測符号化による音声表現の改善
- Authors: Yu-An Chung, James Glass
- Abstract要約: 我々は、将来のフレームを正確に予測できる隠された状態が、多くの下流タスクに有用な表現である、という仮説を拡張した。
本稿では、将来のフレーム予測タスクの一般化を改善するための正規化として機能する補助的目的を提案する。
- 参考スコア(独自算出の注目度): 23.424410568555547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training objectives based on predictive coding have recently been shown to be
very effective at learning meaningful representations from unlabeled speech.
One example is Autoregressive Predictive Coding (Chung et al., 2019), which
trains an autoregressive RNN to generate an unseen future frame given a context
such as recent past frames. The basic hypothesis of these approaches is that
hidden states that can accurately predict future frames are a useful
representation for many downstream tasks. In this paper we extend this
hypothesis and aim to enrich the information encoded in the hidden states by
training the model to make more accurate future predictions. We propose an
auxiliary objective that serves as a regularization to improve generalization
of the future frame prediction task. Experimental results on phonetic
classification, speech recognition, and speech translation not only support the
hypothesis, but also demonstrate the effectiveness of our approach in learning
representations that contain richer phonetic content.
- Abstract(参考訳): 予測符号化に基づく学習目標は最近、ラベルのない音声から有意義な表現を学ぶのに非常に効果的であることが示されている。
例えばAutoregressive Predictive Coding (Chung et al., 2019)では、自動回帰RNNをトレーニングして、最近のフレームのようなコンテキストが与えられない未来フレームを生成する。
これらの手法の基本的な仮説は、将来のフレームを正確に予測できる隠れ状態は多くの下流タスクに有用な表現であるということである。
本稿では,この仮説を拡張し,モデルを用いてより正確な予測を行うことにより,隠れた状態にエンコードされた情報を強化することを目的とする。
本稿では,将来のフレーム予測タスクの一般化を改善するための正規化としての補助目的を提案する。
音声分類,音声認識,音声翻訳に関する実験結果は,仮説を支持するだけでなく,よりリッチな音声コンテンツを含む学習表現における我々のアプローチの有効性を示す。
関連論文リスト
- The Power of Next-Frame Prediction for Learning Physical Laws [5.624870417352306]
次フレーム予測はビデオデータのダイナミックスをモデル化し理解するための有用で強力な手法である。
本稿では,重力や質量などの物理定数の異なる物理法則から導出した6つの診断シミュレーションビデオデータセットについて紹介する。
生成学習フェーズだけでは、ランダムモデルよりもはるかに優れた物理定数を予測できるモデル状態が誘導される。
論文 参考訳(メタデータ) (2024-05-21T17:55:54Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Enhancing Speech Recognition Decoding via Layer Aggregation [7.056222499095849]
最上位層を用いて予測したロジットは、ビームサーチが最適結果を得るのを妨げている可能性があることを示す。
本稿では,上位M層を集約し,中間層に符号化された有用な情報を活用し,モデルの信頼性を緩和する予測手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T20:28:06Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - Augmenting BERT-style Models with Predictive Coding to Improve
Discourse-level Representations [20.855686009404703]
本稿では,予測符号化理論のアイデアを用いて,議論レベルの表現を学習するためのメカニズムによりBERTスタイルの言語モデルを拡張することを提案する。
提案手法は,ネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測できる。
論文 参考訳(メタデータ) (2021-09-10T00:45:28Z) - Adaptive Future Frame Prediction with Ensemble Network [15.19884183320726]
本稿では,将来のフレーム予測タスクに適応的な更新フレームワークを提案する。
提案フレームワークは,事前学習した予測ネットワーク,連続更新予測ネットワーク,重み推定ネットワークから構成される。
我々のアプローチは、特に動的に変化するシーンにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2020-11-13T07:08:06Z) - Latent Representation Prediction Networks [0.0]
満足できない表現を学習するこの原則を見いだす。
本稿では,この表現を予測関数とともに学習する新しい方法を提案する。
提案手法は, 標準強化学習法よりもサンプリング効率がよいことを示す。
論文 参考訳(メタデータ) (2020-09-20T14:26:03Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。