論文の概要: Boosting Local Spectro-Temporal Features for Speech Analysis
- arxiv url: http://arxiv.org/abs/2305.10270v2
- Date: Fri, 28 Jul 2023 05:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:42:19.207268
- Title: Boosting Local Spectro-Temporal Features for Speech Analysis
- Title(参考訳): 局所スペクトル時間特性の音声解析への応用
- Authors: Michael Guerzhoy
- Abstract要約: 対象検出によく用いられる2種類の特徴を用いた音声分類のための予備的な結果:Har特徴とSVM分類された勾配ヒストグラム(HoG)について述べる。
特に,物体検出によく用いられる2種類の特徴を用いた音声分類の予備的結果について述べる:Hear特徴とHandientsのSVM分類ヒストグラム(HoG)
- 参考スコア(独自算出の注目度): 2.5215715078435705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the problem of phone classification in the context of speech
recognition, and explore several sets of local spectro-temporal features that
can be used for phone classification. In particular, we present some
preliminary results for phone classification using two sets of features that
are commonly used for object detection: Haar features and SVM-classified
Histograms of Gradients (HoG).
- Abstract(参考訳): 本稿では,音声認識の文脈における電話分類の問題を紹介し,電話分類に使用できる局所分光時間特徴の組について検討する。
特に,物体検出によく用いられる2種類の特徴を用いた音声分類の予備的結果として,Hear特徴とSVM分類Histograms of Gradients (HoG)を提案する。
関連論文リスト
- Audio Classification of Low Feature Spectrograms Utilizing Convolutional Neural Networks [0.0]
本稿では,データ分布の低い音声スペクトログラムを解析するための機械学習手法をいくつか提案する。
特に,二分法,一級法,シムズ法を用いて特徴を抽出する新しい畳み込みアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:48:57Z) - Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - SVM-Lattice: A Recognition & Evaluation Frame for Double-peaked Profiles [5.2708048125255615]
SVM-Latticeと呼ばれる新しい格子構造は、SVMとFCLに基づいて設計されている。
SVM-Latticeは、二重ピークプロファイルを持つ希少スペクトルの認識と評価に特に応用される。
その結果,従来の手法との整合性が良好であり,分類結果の精度が高く,検索効率も他の類似手法よりも高いことがわかった。
論文 参考訳(メタデータ) (2020-05-02T01:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。