論文の概要: A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework
- arxiv url: http://arxiv.org/abs/2409.15357v1
- Date: Tue, 17 Sep 2024 05:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:30:54.864918
- Title: A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework
- Title(参考訳): スペクトル-時間関係思考に基づく音響モデリングフレームワーク
- Authors: Zheng Nan, Ting Dang, Vidhyasaharan Sethu, Beena Ahmed,
- Abstract要約: リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。
本稿では,スペクトル時間的関係思考に基づく音響モデリングフレームワークを提案する。
このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82%の音素認識タスクを改善した最先端システムを上回っている。
- 参考スコア(独自算出の注目度): 10.354955365036181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relational thinking refers to the inherent ability of humans to form mental impressions about relations between sensory signals and prior knowledge, and subsequently incorporate them into their model of their world. Despite the crucial role relational thinking plays in human understanding of speech, it has yet to be leveraged in any artificial speech recognition systems. Recently, there have been some attempts to correct this oversight, but these have been limited to coarse utterance-level models that operate exclusively in the time domain. In an attempt to narrow the gap between artificial systems and human abilities, this paper presents a novel spectro-temporal relational thinking based acoustic modeling framework. Specifically, it first generates numerous probabilistic graphs to model the relationships among speech segments across both time and frequency domains. The relational information rooted in every pair of nodes within these graphs is then aggregated and embedded into latent representations that can be utilized by downstream tasks. Models built upon this framework outperform state-of-the-art systems with a 7.82\% improvement in phoneme recognition tasks over the TIMIT dataset. In-depth analyses further reveal that our proposed relational thinking modeling mainly improves the model's ability to recognize vowels, which are the most likely to be confused by phoneme recognizers.
- Abstract(参考訳): リレーショナルシンキング(Relational Thinking)とは、感覚信号と先行知識の関係について、人間の心的印象を形成する能力のこと。
リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。
近年、この監視を修正する試みがいくつかあるが、これらは時間領域内でのみ動作する粗い発話レベルモデルに限定されている。
人工システムと人間の能力のギャップを狭めるために, スペクトル時間的リレーショナル思考に基づく音響モデリングフレームワークを提案する。
具体的には、時間領域と周波数領域の両方にわたる音声セグメント間の関係をモデル化するために、まず多数の確率グラフを生成する。
これらのグラフ内の各ノードに根付いた関係情報は集約され、下流タスクで利用できる潜在表現に埋め込まれる。
このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82倍の音素認識タスクを改善した最先端システムより優れている。
In-deepth analysisにより、我々の提案した関係思考モデルが主に、音素認識器によって混同される可能性が最も高い母音を認識するモデルの能力を改善することが明らかとなった。
関連論文リスト
- Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Capturing Spectral and Long-term Contextual Information for Speech
Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。
GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。
その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-08-04T06:20:42Z) - Relational Temporal Graph Reasoning for Dual-task Dialogue Language
Understanding [39.76268402567324]
デュアルタスクダイアログ理解言語は、2つの相関ダイアログ言語理解タスクを、その固有の相関を通じて同時に扱うことを目的としている。
我々は、リレーショナル時間グラフ推論(Relational temporal graph reasoning)が中心となる新しいフレームワークを提唱した。
私たちのモデルは最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-06-15T13:19:08Z) - Probing self-supervised speech models for phonetic and phonemic
information: a case study in aspiration [17.94683764469626]
我々は,これらのモデルの学習表現が,人間による基本的な表現区別とどのように一致しているかを評価する。
これらのモデルのアーキテクチャの初期層には、音韻と音韻の区別の堅牢な表現が出現している。
以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出することがわかった。
論文 参考訳(メタデータ) (2023-06-09T20:07:22Z) - Message Intercommunication for Inductive Relation Reasoning [49.731293143079455]
我々はMINESと呼ばれる新しい帰納的関係推論モデルを開発した。
隣り合う部分グラフにメッセージ通信機構を導入する。
我々の実験は、MINESが既存の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-05-23T13:51:46Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - On the benefits of robust models in modulation recognition [53.391095789289736]
畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。
画像分類のような他の領域では、DNNは敵の摂動に弱いことが示されている。
最新モデルの堅牢性をテストするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-27T19:58:06Z) - Deep Graph Random Process for Relational-Thinking-Based Speech
Recognition [12.09786458466155]
リレーショナルシンキングは、新しい感覚信号と事前知識の関係に関する無数の無意識の知覚に依存している。
本稿では,深部グラフランダムプロセス (DGP) と呼ばれるベイズ的非パラメトリック深層学習手法を提案する。
我々の手法は、訓練中に関係データを用いることなく、発話間の関係を推測できる。
論文 参考訳(メタデータ) (2020-07-04T15:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。