Fugu-MT 論文翻訳(概要): Digital Speech Algorithms for Speaker De-Identification

論文の概要: Digital Speech Algorithms for Speaker De-Identification

arxiv url: http://arxiv.org/abs/2203.03932v1
Date: Tue, 8 Mar 2022 08:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-09 16:08:02.277710
Title: Digital Speech Algorithms for Speaker De-Identification
Title（参考訳）: 話者識別のためのディジタル音声アルゴリズム
Authors: Stefano Marinozzi, Marcos Faundez-Zanuy
Abstract要約: 声質変化の4つのアルゴリズムを音声の性別認識器上で実験した。本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The present work is based on the COST Action IC1206 for De-identification in multimedia content. It was performed to test four algorithms of voice modifications on a speech gender recognizer to find the degree of modification of pitch when the speech recognizer have the probability of success equal to the probability of failure. The purpose of this analysis is to assess the intensity of the speech tone modification, the quality, the reversibility and not-reversibility of the changes made.
Abstract（参考訳）: 本研究は,マルチメディアコンテンツの識別のためのCOSTアクションIC1206に基づく。音声認識器が失敗確率に等しい成功確率を持つ場合、ピッチの修正度を求めるために、音声性認識器における音声修正の4つのアルゴリズムをテストした。本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。

関連論文リスト

SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。 11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文参考訳（メタデータ） (2025-08-04T03:28:04Z)
AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
Exploring Generative Error Correction for Dysarthric Speech Recognition [12.584296717901116]
本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文参考訳（メタデータ） (2025-05-26T16:06:31Z)
Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment [1.0359008237358598]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文参考訳（メタデータ） (2023-07-06T21:10:50Z)
Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。 Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文参考訳（メタデータ） (2023-05-18T15:59:36Z)
ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文参考訳（メタデータ） (2023-02-16T08:10:41Z)
Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文参考訳（メタデータ） (2022-08-28T10:03:55Z)
Improving speaker de-identification with functional data analysis of f0 trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文参考訳（メタデータ） (2022-03-31T01:34:15Z)
Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文参考訳（メタデータ） (2022-03-30T07:25:52Z)
Speaker Identification Experiments Under Gender De-Identification [0.0]
声質変化の4つのアルゴリズムを音声の性別認識器上で実験した。本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。
論文参考訳（メタデータ） (2022-03-09T10:47:23Z)
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。 UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文参考訳（メタデータ） (2022-01-14T16:56:43Z)
Unsupervised Domain Adaptation in Speech Recognition using Phonetic Features [6.872447420442981]
音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。 TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
論文参考訳（メタデータ） (2021-08-04T06:22:12Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。