論文の概要: Deep Graph Random Process for Relational-Thinking-Based Speech
Recognition
- arxiv url: http://arxiv.org/abs/2007.02126v2
- Date: Wed, 8 Jul 2020 09:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:19:28.417475
- Title: Deep Graph Random Process for Relational-Thinking-Based Speech
Recognition
- Title(参考訳): リレーショナル思考に基づく音声認識のためのディープグラフランダム処理
- Authors: Hengguan Huang, Fuzhao Xue, Hao Wang, Ye Wang
- Abstract要約: リレーショナルシンキングは、新しい感覚信号と事前知識の関係に関する無数の無意識の知覚に依存している。
本稿では,深部グラフランダムプロセス (DGP) と呼ばれるベイズ的非パラメトリック深層学習手法を提案する。
我々の手法は、訓練中に関係データを用いることなく、発話間の関係を推測できる。
- 参考スコア(独自算出の注目度): 12.09786458466155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lying at the core of human intelligence, relational thinking is characterized
by initially relying on innumerable unconscious percepts pertaining to
relations between new sensory signals and prior knowledge, consequently
becoming a recognizable concept or object through coupling and transformation
of these percepts. Such mental processes are difficult to model in real-world
problems such as in conversational automatic speech recognition (ASR), as the
percepts (if they are modelled as graphs indicating relationships among
utterances) are supposed to be innumerable and not directly observable. In this
paper, we present a Bayesian nonparametric deep learning method called deep
graph random process (DGP) that can generate an infinite number of
probabilistic graphs representing percepts. We further provide a closed-form
solution for coupling and transformation of these percept graphs for acoustic
modeling. Our approach is able to successfully infer relations among utterances
without using any relational data during training. Experimental evaluations on
ASR tasks including CHiME-2 and CHiME-5 demonstrate the effectiveness and
benefits of our method.
- Abstract(参考訳): 人間の知性の中心にあるリレーショナル思考は、最初は、新しい感覚信号と事前知識の関係に関する無意識の知覚に依存し、結果としてこれらの知覚の結合と変換を通じて認識可能な概念や物体となる。
このようなメンタルプロセスは、会話の自動音声認識(ASR)のような現実的な問題ではモデル化が困難であり、(発話間の関係を示すグラフとしてモデル化されている場合)パーセプションは無数であり、直接観察できない。
本稿では,パーセプタを表現する無限個の確率グラフを生成可能な,ディープグラフランダム処理(dgp)と呼ばれるベイズ非パラメトリック深層学習手法を提案する。
さらに,音響モデリングのための知覚グラフの結合と変換のための閉形式解を提案する。
我々の手法は、訓練中に関係データを用いることなく、発話間の関係を推測できる。
CHiME-2およびCHiME-5を含むASRタスクの実験的評価により,本手法の有効性とメリットが示された。
関連論文リスト
- A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework [10.354955365036181]
リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。
本稿では,スペクトル時間的関係思考に基づく音響モデリングフレームワークを提案する。
このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82%の音素認識タスクを改善した最先端システムを上回っている。
論文 参考訳(メタデータ) (2024-09-17T05:45:33Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - GIF: A General Graph Unlearning Strategy via Influence Function [63.52038638220563]
Graph Influence Function (GIF)は、削除されたデータにおける$epsilon$-massの摂動に応答してパラメータの変化を効率的に正確に推定できる、モデルに依存しない未学習の手法である。
我々は,4つの代表的GNNモデルと3つのベンチマークデータセットについて広範な実験を行い,未学習の有効性,モデルの有用性,未学習効率の観点からGIFの優位性を正当化する。
論文 参考訳(メタデータ) (2023-04-06T03:02:54Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Does the Brain Infer Invariance Transformations from Graph Symmetries? [0.0]
知覚的変化の下での自然物体の不変性は、シナプス接続のグラフの対称性によって脳内でコード化される可能性がある。
このグラフは、生物学的に妥当なプロセスにおいて、異なる知覚的モダリティをまたいだ教師なしの学習を通じて確立することができる。
論文 参考訳(メタデータ) (2021-11-11T12:35:13Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Exploiting Emotional Dependencies with Graph Convolutional Networks for
Facial Expression Recognition [31.40575057347465]
本稿では,視覚における表情認識のためのマルチタスク学習フレームワークを提案する。
MTL設定において、離散認識と連続認識の両方のために共有特徴表現が学習される。
実験の結果,本手法は離散FER上での最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T10:20:05Z) - Neural-Symbolic Relational Reasoning on Graph Models: Effective Link
Inference and Computation from Knowledge Bases [0.5669790037378094]
モデルにそのような経路を含む知識グラフの最小限のネットワークを埋め込むことにより、すべての経路を学習するニューラルネットワークのシンボリックグラフを提案する。
単語の埋め込みに対応する実体と事実の表現を学習することにより、モデルをエンドツーエンドでトレーニングし、それらの表現をデコードし、関係性アプローチでエンティティ間の関係を推論する方法を示す。
論文 参考訳(メタデータ) (2020-05-05T22:46:39Z) - Facial Action Unit Intensity Estimation via Semantic Correspondence
Learning with Dynamic Graph Convolution [27.48620879003556]
本稿では,特徴マップ間の意味的対応を確立することによって,AUの潜伏関係を自動的に学習する学習フレームワークを提案する。
熱マップ回帰に基づくネットワークでは、特徴写像はAU強度と位置に関連する豊富な意味情報を保存する。
これはAU強度レベルの共起関係を暗黙的に表す特徴チャネル間の相関をモデル化する動機となっている。
論文 参考訳(メタデータ) (2020-04-20T23:55:30Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。