論文の概要: Embodied Self-supervised Learning by Coordinated Sampling and Training
- arxiv url: http://arxiv.org/abs/2006.13350v2
- Date: Sun, 16 Jan 2022 09:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:37:50.193362
- Title: Embodied Self-supervised Learning by Coordinated Sampling and Training
- Title(参考訳): コーディネートサンプリングとトレーニングによる自己指導型学習
- Authors: Yifan Sun and Xihong Wu
- Abstract要約: 本稿では, 逆問題に対して, 対応する物理フォワードプロセスを用いて, 自己教師型アプローチを提案する。
提案手法は、反復的なサンプリングとトレーニングによって推論ネットワークを学習するために、分析バイシンセシス方式で動作する。
音声から調音情報を推測するために,音響-調音インバージョン問題に対処することで,提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 14.107020105091662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning can significantly improve the performance of
downstream tasks, however, the dimensions of learned representations normally
lack explicit physical meanings. In this work, we propose a novel
self-supervised approach to solve inverse problems by employing the
corresponding physical forward process so that the learned representations can
have explicit physical meanings. The proposed approach works in an
analysis-by-synthesis manner to learn an inference network by iteratively
sampling and training. At the sampling step, given observed data, the inference
network is used to approximate the intractable posterior, from which we sample
input parameters and feed them to a physical process to generate data in the
observational space; At the training step, the same network is optimized with
the sampled paired data. We prove the feasibility of the proposed method by
tackling the acoustic-to-articulatory inversion problem to infer articulatory
information from speech. Given an articulatory synthesizer, an inference model
can be trained completely from scratch with random initialization. Our
experiments demonstrate that the proposed method can converge steadily and the
network learns to control the articulatory synthesizer to speak like a human.
We also demonstrate that trained models can generalize well to unseen speakers
or even new languages, and performance can be further improved through
self-adaptation.
- Abstract(参考訳): 自己教師付き学習は下流タスクのパフォーマンスを著しく向上させるが、学習表現の次元は通常、明示的な物理的意味を欠いている。
本研究では, 学習表現が明示的な物理的意味を持つように, 対応する物理フォワードプロセスを用いることにより, 逆問題を解くための新しい自己教師あり手法を提案する。
提案手法は,反復的サンプリングとトレーニングによって推論ネットワークを学習するために,解析・合成方式で機能する。
サンプリングステップでは、観測されたデータに対して、入力パラメータをサンプリングして物理プロセスに供給し、観測空間でデータを生成するように推論ネットワークを近似し、トレーニングステップでは、サンプリングされたペアデータで同じネットワークを最適化する。
音声から調音情報を推測するために,音響-調音反転問題に取り組むことで提案手法の有効性を実証する。
調音合成器が与えられると、推論モデルはランダム初期化を伴うスクラッチから完全に訓練することができる。
本実験は,提案手法が着実に収束し,ネットワークが人間のように話す調音合成器を制御することを学習できることを実証する。
また、訓練されたモデルが認識できない話者や新しい言語にうまく一般化できること、そして自己適応によってパフォーマンスがさらに向上できることを実証した。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Demolition and Reinforcement of Memories in Spin-Glass-like Neural
Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。
構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文 参考訳(メタデータ) (2024-03-04T23:12:42Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Self-Adaptive Training: Bridging the Supervised and Self-Supervised
Learning [16.765461276790944]
自己適応型トレーニングは、追加の計算コストを課すことなく、モデル予測によってトレーニングプロセスを動的にキャリブレーションし、強化する統一型トレーニングアルゴリズムです。
ランダムノイズや敵対的な例など、破損したトレーニングデータの深層ネットワークのトレーニングダイナミクスを分析します。
分析の結果, モデル予測はデータ中の有用な情報量を拡大することが可能であり, 強調ラベル情報がない場合にも広く発生することがわかった。
論文 参考訳(メタデータ) (2021-01-21T17:17:30Z) - Local and non-local dependency learning and emergence of rule-like
representations in speech data by Deep Convolutional Generative Adversarial
Networks [0.0]
本稿では、音声データにおける局所的および非局所的依存関係に対するGANのトレーニングは、ディープニューラルネットワークが連続データをどのように識別するかについての洞察を与える。
論文 参考訳(メタデータ) (2020-09-27T00:02:34Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。