論文の概要: VANPY: Voice Analysis Framework
- arxiv url: http://arxiv.org/abs/2502.17579v1
- Date: Mon, 17 Feb 2025 21:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:21:18.143234
- Title: VANPY: Voice Analysis Framework
- Title(参考訳): VANPY:音声分析フレームワーク
- Authors: Gregory Koushnir, Michael Fire, Galit Fuhrmann Alpert, Dima Kagan,
- Abstract要約: 我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。
フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。
映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Voice data is increasingly being used in modern digital communications, yet there is still a lack of comprehensive tools for automated voice analysis and characterization. To this end, we developed the VANPY (Voice Analysis in Python) framework for automated pre-processing, feature extraction, and classification of voice data. The VANPY is an open-source end-to-end comprehensive framework that was developed for the purpose of speaker characterization from voice data. The framework is designed with extensibility in mind, allowing for easy integration of new components and adaptation to various voice analysis applications. It currently incorporates over fifteen voice analysis components - including music/speech separation, voice activity detection, speaker embedding, vocal feature extraction, and various classification models. Four of the VANPY's components were developed in-house and integrated into the framework to extend its speaker characterization capabilities: gender classification, emotion classification, age regression, and height regression. The models demonstrate robust performance across various datasets, although not surpassing state-of-the-art performance. As a proof of concept, we demonstrate the framework's ability to extract speaker characteristics on a use-case challenge of analyzing character voices from the movie "Pulp Fiction." The results illustrate the framework's capability to extract multiple speaker characteristics, including gender, age, height, emotion type, and emotion intensity measured across three dimensions: arousal, dominance, and valence.
- Abstract(参考訳): 音声データは現代のデジタル通信ではますます使われてきているが、音声の自動分析と特徴付けのための包括的ツールがまだない。
そこで我々は,自動前処理,特徴抽出,音声データの分類を行うVANPY(Voice Analysis in Python)フレームワークを開発した。
VANPYは,音声データから話者を識別する目的で開発された,オープンソースのエンドツーエンド包括的フレームワークである。
このフレームワークは拡張性を考慮して設計されており、新しいコンポーネントを容易に統合でき、様々な音声分析アプリケーションに適応できる。
現在15以上の音声分析コンポーネントが組み込まれており、音楽と音声の分離、音声活動の検出、話者埋め込み、音声特徴抽出、様々な分類モデルが含まれている。
VANPYの4つの構成要素は社内で開発され、性別分類、感情分類、年齢回帰、身長回帰といった話者特性を拡張すべくフレームワークに組み込まれた。
モデルは様々なデータセットで堅牢なパフォーマンスを示すが、最先端のパフォーマンスには及ばない。
概念実証として,映画『パルプ・フィクション』の文字音声を解析するためのユースケース課題において,このフレームワークが話者特性を抽出する能力を示す。
その結果, 性別, 年齢, 身長, 感情タイプ, 覚醒, 支配力, 原子価の3次元にわたって測定された感情の強さなど, 複数の話者特性を抽出する能力が示唆された。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Disentangling Textual and Acoustic Features of Neural Speech Representations [23.486891834252535]
我々は,複雑な音声表現のためのアンタングル化フレームワークを提案するために,インフォメーション・ボトルネックの原理に基づいて構築する。
我々は、感情認識と話者識別のための枠組みを下流のタスクに適用する。
論文 参考訳(メタデータ) (2024-10-03T22:48:04Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Beyond Voice Identity Conversion: Manipulating Voice Attributes by
Adversarial Learning of Structured Disentangled Representations [12.139222986297263]
本稿では,音声属性の操作を可能にするニューラルアーキテクチャを提案する。
複数の自動エンコーダを用いて、理想主義的に独立した言語的および言語外表現の集合として音声を符号化する、構造化ニューラルネットワークが提案されている。
提案アーキテクチャは、リップ同期アプリケーションを可能にする変換中に元の音声タイミングが保存されるように時間同期される。
論文 参考訳(メタデータ) (2021-07-26T17:40:43Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Data-driven Detection and Analysis of the Patterns of Creaky Voice [13.829936505895692]
クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2020-05-31T13:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。