Fugu-MT 論文翻訳(概要): Data-driven Detection and Analysis of the Patterns of Creaky Voice

論文の概要: Data-driven Detection and Analysis of the Patterns of Creaky Voice

arxiv url: http://arxiv.org/abs/2006.00518v1
Date: Sun, 31 May 2020 13:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 12:57:49.817740
Title: Data-driven Detection and Analysis of the Patterns of Creaky Voice
Title（参考訳）: データ駆動によるき裂音声のパターンの検出と分析
Authors: Thomas Drugman, John Kane, Christer Gobl
Abstract要約: クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
参考スコア（独自算出の注目度）: 13.829936505895692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates the temporal excitation patterns of creaky voice. Creaky voice is a voice quality frequently used as a phrase-boundary marker, but also as a means of portraying attitude, affective states and even social status. Consequently, the automatic detection and modelling of creaky voice may have implications for speech technology applications. The acoustic characteristics of creaky voice are, however, rather distinct from modal phonation. Further, several acoustic patterns can bring about the perception of creaky voice, thereby complicating the strategies used for its automatic detection, analysis and modelling. The present study is carried out using a variety of languages, speakers, and on both read and conversational data and involves a mutual information-based assessment of the various acoustic features proposed in the literature for detecting creaky voice. These features are then exploited in classification experiments where we achieve an appreciable improvement in detection accuracy compared to the state of the art. Both experiments clearly highlight the presence of several creaky patterns. A subsequent qualitative and quantitative analysis of the identified patterns is provided, which reveals a considerable speaker-dependent variability in the usage of these creaky patterns. We also investigate how creaky voice detection systems perform across creaky patterns.
Abstract（参考訳）: 本稿では,難聴音声の時間的励起パターンについて検討する。クレーキーな声は、フレーズ境界標識としてよく使われる声質であるが、態度、感情的状態、さらには社会的地位を表現する手段としても用いられる。その結果, 難聴音声の自動検出とモデリングは, 音声技術への応用に影響を及ぼす可能性がある。しかし、クレーキー音声の音響特性は、モーダル発声とはかなり異なる。さらに、いくつかの音響パターンは、難聴音声の知覚をもたらし、その自動検出、分析、モデリングに使用される戦略を複雑化する。本研究は,様々な言語,話者,および読解データと会話データの両方を用いて,クレーキー音声の検出のために文献で提案されている各種音響特徴の相互情報に基づく評価を行う。これらの特徴を分類実験で利用し, 検出精度を技術状況と比較して高い精度で向上させる。どちらの実験も、いくつかのクレーキーパターンの存在を明確に示している。続いて同定されたパターンの質的および定量的な分析を行い、これらのパターンの使用における話者依存性のかなりの変動を明らかにする。また,難解な音声検出システムが,難解なパターン間でどのように機能するかについても検討する。

関連論文リスト

Exploiting Context-dependent Duration Features for Voice Anonymization Attack Systems [17.048523623756623]
音声時間力学から文脈依存の持続時間埋め込みを抽出し、話者特性を表現する新しい手法を提案する。これらの表現を用いて新たな攻撃モデルを開発し、話者検証と音声匿名化システムにおける潜在的な脆弱性を分析する。
論文参考訳（メタデータ） (2025-07-21T03:28:56Z)
AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis [20.80178325643714]
生成音声システムでは、IDは自動話者検証(ASV)埋め込みを用いて評価されることが多い。広く使われているASV埋め込みは,リズムなどの動的要素を無視しつつ,音色やピッチ範囲などの静的特徴に主眼を置いていることがわかった。これらのギャップに対処するために、話者の動的リズムパターンを評価する指標であるU3Dを提案する。
論文参考訳（メタデータ） (2025-07-02T22:16:42Z)
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。 CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文参考訳（メタデータ） (2025-06-06T13:25:56Z)
VANPY: Voice Analysis Framework [0.0]
我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2025-02-17T21:12:57Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
A Novel Labeled Human Voice Signal Dataset for Misbehavior Detection [0.7223352886780369]
本研究は,音声認識のための自動学習システムにおける音声トーンと配信の重要性を強調した。これは、人間の行動が音声信号の知覚と分類に与える影響を解明することにより、音声信号解析の幅広い分野に寄与する。
論文参考訳（メタデータ） (2024-06-28T18:55:07Z)
Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文参考訳（メタデータ） (2024-06-14T20:07:21Z)
Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文参考訳（メタデータ） (2024-04-25T12:03:14Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-07T11:08:31Z)
PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。微分不可能な時間的音響パラメータを同定する。時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文参考訳（メタデータ） (2023-02-16T05:17:06Z)
Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文参考訳（メタデータ） (2021-06-15T18:03:48Z)
Speaker Recognition in Bengali Language from Nonlinear Features [0.0]
ベンガル語音声認識と話者識別の研究は文献にはほとんどない。本研究では,非線形多フラクタル解析を用いて音声の音響特性を抽出した。 Multifractal Detrended Fluctuation Analysisでは、音声信号の複雑さが明らかにされている。
論文参考訳（メタデータ） (2020-04-15T22:38:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。