論文の概要: Vector-Quantized Autoregressive Predictive Coding
- arxiv url: http://arxiv.org/abs/2005.08392v1
- Date: Sun, 17 May 2020 23:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:15:26.298835
- Title: Vector-Quantized Autoregressive Predictive Coding
- Title(参考訳): ベクトル量子化自己回帰予測符号化
- Authors: Yu-An Chung, Hao Tang, James Glass
- Abstract要約: 本稿では,Vector-Quantized Autoregressive Predictive Coding (VQ-APC)を提案する。
制限されたモデルの列を研究することで、学習された表現の構成要素を明らかにする。
音声情報や話者情報を増幅して、自己監督対象を最大化する点が存在することがわかった。
- 参考スコア(独自算出の注目度): 31.4011465698136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Predictive Coding (APC), as a self-supervised objective, has
enjoyed success in learning representations from large amounts of unlabeled
data, and the learned representations are rich for many downstream tasks.
However, the connection between low self-supervised loss and strong performance
in downstream tasks remains unclear. In this work, we propose Vector-Quantized
Autoregressive Predictive Coding (VQ-APC), a novel model that produces
quantized representations, allowing us to explicitly control the amount of
information encoded in the representations. By studying a sequence of
increasingly limited models, we reveal the constituents of the learned
representations. In particular, we confirm the presence of information with
probing tasks, while showing the absence of information with mutual
information, uncovering the model's preference in preserving speech information
as its capacity becomes constrained. We find that there exists a point where
phonetic and speaker information are amplified to maximize a self-supervised
objective. As a byproduct, the learned codes for a particular model capacity
correspond well to English phones.
- Abstract(参考訳): 自己監視型予測符号化(autoregressive prediction coding, apc)は,大量のラベルなしデータから表現を学ぶことに成功し,学習された表現は多くの下流タスクに豊富である。
しかし、低自己監督損失と下流タスクの強い性能の関連性は未だ不明である。
本研究では,量子化表現を生成する新しいモデルであるVector-Quantized Autoregressive Predictive Coding (VQ-APC)を提案する。
限られたモデルの列を研究することで、学習された表現の構成要素を明らかにする。
特に,調査課題を伴う情報の存在を確認するとともに,情報の欠如を相互情報で示しながら,音声情報の容量が制限されることなく保存するモデルの嗜好を明らかにする。
自己監督目的を最大化するために、音声情報と話者情報が増幅される点が存在することを見出した。
副産物として、特定のモデル容量の学習符号は、英語の電話機とよく一致する。
関連論文リスト
- MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion [14.907473847787541]
人間の骨格モデリングのための統合フレームワークとして,Masked Diffusion Conditional (MacDiff)を提案する。
まず,拡散モデルを用いて効率的な骨格表現学習を行う。
MacDiffは、生成タスクの能力を維持しながら、表現学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-16T17:06:10Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Conditional Contrastive Learning: Removing Undesirable Information in
Self-Supervised Representations [108.29288034509305]
我々は,自己指導型表現において望ましくない情報を除去するために,条件付きコントラスト学習を開発する。
提案手法は,下流タスクの自己教師付き表現をうまく学習できることを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-05T10:51:26Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - High-Fidelity Audio Generation and Representation Learning with Guided
Adversarial Autoencoder [2.6770746621108654]
GAAE(Guided Adversarial Autoencoder)と呼ばれる新しいオートエンコーダモデルを提案する。
提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成できる。
論文 参考訳(メタデータ) (2020-06-01T12:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。