論文の概要: Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features
- arxiv url: http://arxiv.org/abs/2409.06033v1
- Date: Mon, 9 Sep 2024 19:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:51:02.457770
- Title: Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features
- Title(参考訳): 因果クイズの調査:人間の識別可能な言語特徴を用いた音声検出の強化
- Authors: Zahra Khanjani, Tolulope Ale, Jianwu Wang, Lavon Davis, Christine Mallinson, Vandana P. Janeja,
- Abstract要約: 模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。
近年、研究者は社会言語学の専門家と共同で、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。
EDLFによる音声データの従来の特徴と一般的な特徴を拡張した場合,いくつかのディープフェイク検出アルゴリズムが改良されていることが確認された。
- 参考スコア(独自算出の注目度): 0.353122873734926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Several types of spoofed audio, such as mimicry, replay attacks, and deepfakes, have created societal challenges to information integrity. Recently, researchers have worked with sociolinguistics experts to label spoofed audio samples with Expert Defined Linguistic Features (EDLFs) that can be discerned by the human ear: pitch, pause, word-initial and word-final release bursts of consonant stops, audible intake or outtake of breath, and overall audio quality. It is established that there is an improvement in several deepfake detection algorithms when they augmented the traditional and common features of audio data with these EDLFs. In this paper, using a hybrid dataset comprised of multiple types of spoofed audio augmented with sociolinguistic annotations, we investigate causal discovery and inferences between the discernible linguistic features and the label in the audio clips, comparing the findings of the causal models with the expert ground truth validation labeling process. Our findings suggest that the causal models indicate the utility of incorporating linguistic features to help discern spoofed audio, as well as the overall need and opportunity to incorporate human knowledge into models and techniques for strengthening AI models. The causal discovery and inference can be used as a foundation of training humans to discern spoofed audio as well as automating EDLFs labeling for the purpose of performance improvement of the common AI-based spoofed audio detectors.
- Abstract(参考訳): 模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。
近年、研究者は社会言語学の専門家と共同で、人間の耳で識別できる、ピッチ、ポーズ、単語初期、単語最終リリースバースト(子音停止のバースト)、息の吸入または吸入の可聴性、および全体的な音質など、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。
これらのEDLFを用いて、従来の音声データの特徴を拡張した場合、ディープフェイク検出アルゴリズムがいくつか改善されていることが確認された。
本稿では,音声クリップ中の識別可能な言語特徴とラベルの因果発見と推論を行い,因果モデルの結果と専門家の根拠的真理検証ラベリングプロセスを比較した。
以上の結果から,この因果的モデルは,スプーフ音声の識別に言語的特徴を取り入れることの有用性と,AIモデルを強化するモデルや技術に人間の知識を組み込むための全体的なニーズと機会が示唆された。
この因果発見と推論は、一般的なAIベースのスプーフオーディオ検出器の性能向上を目的としたEDLFラベルの自動化だけでなく、スプーフオーディオの識別を人間に訓練する基盤として利用することができる。
関連論文リスト
- Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis [0.6062751776009752]
軽度認知障害と認知スコアを予測できるマルチモーダルモデルを提案する。
提案モデルでは,インタビューで使用した言語を書き起こし,区別する能力を示す。
提案手法では,提案手法から得られた様々な特徴を詳細に検討する。
論文 参考訳(メタデータ) (2024-06-11T17:59:31Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Collaborative Watermarking for Adversarial Speech Synthesis [0.0]
合成音声透かしのための協調学習手法を提案する。
ASVspoof 2021ベースライン対策モデルと協調したHiFi-GANニューラルボコーダが検出性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2023-09-26T19:43:14Z) - Exploring Multimodal Approaches for Alzheimer's Disease Detection Using
Patient Speech Transcript and Audio Data [10.782153332144533]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。
本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
論文 参考訳(メタデータ) (2023-07-05T12:40:11Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。