論文の概要: Audio-to-Image Encoding for Improved Voice Characteristic Detection Using Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2503.05929v1
- Date: Fri, 07 Mar 2025 20:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:45.401661
- Title: Audio-to-Image Encoding for Improved Voice Characteristic Detection Using Deep Convolutional Neural Networks
- Title(参考訳): 深部畳み込みニューラルネットワークを用いた音声特徴検出のためのオーディオ・画像符号化
- Authors: Youness Atif,
- Abstract要約: 本稿では,複数次元の音声特徴を1つのRGB画像に統合して話者認識を実現する,新しい音声画像符号化フレームワークを提案する。
これらの合成画像に基づいてトレーニングされたディープ畳み込みニューラルネットワークは、2つの話者間での話者分類において98%の精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a novel audio-to-image encoding framework that integrates multiple dimensions of voice characteristics into a single RGB image for speaker recognition. In this method, the green channel encodes raw audio data, the red channel embeds statistical descriptors of the voice signal (including key metrics such as median and mean values for fundamental frequency, spectral centroid, bandwidth, rolloff, zero-crossing rate, MFCCs, RMS energy, spectral flatness, spectral contrast, chroma, and harmonic-to-noise ratio), and the blue channel comprises subframes representing these features in a spatially organized format. A deep convolutional neural network trained on these composite images achieves 98% accuracy in speaker classification across two speakers, suggesting that this integrated multi-channel representation can provide a more discriminative input for voice recognition tasks.
- Abstract(参考訳): 本稿では,複数次元の音声特徴を1つのRGB画像に統合して話者認識を実現する,新しい音声画像符号化フレームワークを提案する。
この方法において、グリーンチャネルは生音声データを符号化し、赤色チャネルは音声信号の統計的記述子(基本周波数、スペクトルセントロイド、帯域幅、ロールオフ、ゼロクロスレート、MFCC、RMSエネルギー、スペクトル平坦性、スペクトルコントラスト、クロマ、ハーモニック・ツー・ノイズ比などの重要な指標を含む)を埋め込み、青色チャネルはこれらの特徴を表すサブフレームを空間的に構成されたフォーマットで構成する。
これらの合成画像に基づいてトレーニングされたディープ畳み込みニューラルネットワークは、2つの話者間での話者分類において98%の精度を達成する。
関連論文リスト
- FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning [0.15346678870160887]
本稿では、2つの異なるCNNベースのエンコーダの特徴を統合する新しいアプローチを提案する。
また、重み付きデコーダにおける全GRUの出力を結合する重み付き平均化手法を提案する。
以上の結果から,我々の核融合に基づくアプローチは,拡張スタックデコーダとともに,トランスフォーマーベースモデルと他のLSTMベースラインとを著しく上回る結果となった。
論文 参考訳(メタデータ) (2025-02-13T12:54:13Z) - Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
デジタル画像から抽出したスペクトルおよびリズムの特徴を音響的分類に用いることができる。
メルスケール分光図, メル周波数ケプストラム係数 (MFCC) などのスペクトル・リズム特性の異なる表現について検討した。
論文 参考訳(メタデータ) (2024-10-09T14:21:59Z) - An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment [6.977241620071544]
マルチモーダルな大言語モデルは画像キャプションの進歩を加速させた。
本研究では,この機能を音声キャプションに再利用できることを示す。
本稿では,視覚的モダリティのギャップを埋めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T12:52:48Z) - Image Denoising Using Green Channel Prior [3.8541941705185114]
Green channel pre-based image denoising (GCP-ID)メソッドは、GCPを古典的なパッチベースのdenoisingフレームワークに統合する。
GCP-IDの様々な画像コンテンツへの適応性を高めるため、ノイズ推定問題を分類タスクにキャストし、畳み込みニューラルネットワーク(CNN)に基づく効果的な推定器を訓練する。
論文 参考訳(メタデータ) (2024-08-12T05:07:12Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。