Fugu-MT 論文翻訳(概要): Sentiment analysis in non-fixed length audios using a Fully Convolutional Neural Network

論文の概要: Sentiment analysis in non-fixed length audios using a Fully Convolutional Neural Network

arxiv url: http://arxiv.org/abs/2402.02184v1
Date: Sat, 3 Feb 2024 15:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 21:40:01.005640
Title: Sentiment analysis in non-fixed length audios using a Fully Convolutional Neural Network
Title（参考訳）: 完全畳み込みニューラルネットワークを用いた非固定長音声の感度解析
Authors: Mar\'ia Teresa Garc\'ia-Ord\'as, H\'ector Alaiz-Moret\'on, Jos\'e Alberto Ben\'itez-Andrades, Isa\'ias Garc\'ia-Rodr\'iguez, Oscar Garc\'ia-Olalla and Carmen Benavides
Abstract要約: 任意の長さの音声を事前に固定することなく受信できる感情分析手法を提案する。音声記述法としてMel SpectrogramとMel Frequency Cepstral Coefficientsを用いる。完全畳み込みニューラルネットワークアーキテクチャを分類器として提案する。
参考スコア（独自算出の注目度）: 0.3495246564946556
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this work, a sentiment analysis method that is capable of accepting audio of any length, without being fixed a priori, is proposed. Mel spectrogram and Mel Frequency Cepstral Coefficients are used as audio description methods and a Fully Convolutional Neural Network architecture is proposed as a classifier. The results have been validated using three well known datasets: EMODB, RAVDESS, and TESS. The results obtained were promising, outperforming the state-of-the-art methods. Also, thanks to the fact that the proposed method admits audios of any size, it allows a sentiment analysis to be made in near real time, which is very interesting for a wide range of fields such as call centers, medical consultations, or financial brokers.
Abstract（参考訳）: そこで本研究では,任意の長さの音声を事前に修正することなく受け付けることができる感情分析手法を提案する。音声記述法としてMel SpectrogramとMel Frequency Cepstral Coefficientsを用い,分類器として完全畳み込みニューラルネットワークアーキテクチャを提案する。結果は、EMODB、RAVDESS、TESSの3つのよく知られたデータセットを使用して検証されている。得られた結果は有望であり、最先端の手法を上回った。また,提案手法は任意の大きさの音声を受信できるため,感情分析をほぼリアルタイムで行うことが可能であり,コールセンター,医療相談,金融ブローカーなど幅広い分野において非常に興味深い。

関連論文リスト

Optimal Transport Maps are Good Voice Converters [58.42556113055807]
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-17T22:48:53Z)
BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文参考訳（メタデータ） (2023-05-17T06:40:31Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
A Study on Robustness to Perturbations for Representations of Environmental Sound [16.361059909912758]
モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上で,YAMNetとOpenL$3$の2つの埋め込みを評価した。本研究では,音波信号に摂動を注入することによりチャネル効果を模倣し,新しい埋め込みのシフトを3つの距離で測定する。
論文参考訳（メタデータ） (2022-03-20T01:04:38Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
Cross-domain Adaptation with Discrepancy Minimization for Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文参考訳（メタデータ） (2020-09-05T02:54:33Z)
An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文参考訳（メタデータ） (2020-07-15T19:41:15Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)
CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文参考訳（メタデータ） (2020-01-12T09:35:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。