Fugu-MT 論文翻訳(概要): Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features

論文の概要: Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features

arxiv url: http://arxiv.org/abs/2409.06033v1
Date: Mon, 9 Sep 2024 19:47:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:51:02.457770
Title: Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features
Title（参考訳）: 因果クイズの調査:人間の識別可能な言語特徴を用いた音声検出の強化
Authors: Zahra Khanjani, Tolulope Ale, Jianwu Wang, Lavon Davis, Christine Mallinson, Vandana P. Janeja,
Abstract要約: 模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。近年、研究者は社会言語学の専門家と共同で、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。 EDLFによる音声データの従来の特徴と一般的な特徴を拡張した場合,いくつかのディープフェイク検出アルゴリズムが改良されていることが確認された。
参考スコア（独自算出の注目度）: 0.353122873734926
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Several types of spoofed audio, such as mimicry, replay attacks, and deepfakes, have created societal challenges to information integrity. Recently, researchers have worked with sociolinguistics experts to label spoofed audio samples with Expert Defined Linguistic Features (EDLFs) that can be discerned by the human ear: pitch, pause, word-initial and word-final release bursts of consonant stops, audible intake or outtake of breath, and overall audio quality. It is established that there is an improvement in several deepfake detection algorithms when they augmented the traditional and common features of audio data with these EDLFs. In this paper, using a hybrid dataset comprised of multiple types of spoofed audio augmented with sociolinguistic annotations, we investigate causal discovery and inferences between the discernible linguistic features and the label in the audio clips, comparing the findings of the causal models with the expert ground truth validation labeling process. Our findings suggest that the causal models indicate the utility of incorporating linguistic features to help discern spoofed audio, as well as the overall need and opportunity to incorporate human knowledge into models and techniques for strengthening AI models. The causal discovery and inference can be used as a foundation of training humans to discern spoofed audio as well as automating EDLFs labeling for the purpose of performance improvement of the common AI-based spoofed audio detectors.
Abstract（参考訳）: 模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。近年、研究者は社会言語学の専門家と共同で、人間の耳で識別できる、ピッチ、ポーズ、単語初期、単語最終リリースバースト(子音停止のバースト)、息の吸入または吸入の可聴性、および全体的な音質など、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。これらのEDLFを用いて、従来の音声データの特徴を拡張した場合、ディープフェイク検出アルゴリズムがいくつか改善されていることが確認された。本稿では,音声クリップ中の識別可能な言語特徴とラベルの因果発見と推論を行い,因果モデルの結果と専門家の根拠的真理検証ラベリングプロセスを比較した。以上の結果から,この因果的モデルは,スプーフ音声の識別に言語的特徴を取り入れることの有用性と,AIモデルを強化するモデルや技術に人間の知識を組み込むための全体的なニーズと機会が示唆された。この因果発見と推論は、一般的なAIベースのスプーフオーディオ検出器の性能向上を目的としたEDLFラベルの自動化だけでなく、スプーフオーディオの識別を人間に訓練する基盤として利用することができる。

関連論文リスト

AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM [9.84961079811343]
音声は、認知低下を評価するための非侵襲的で容易に収集可能なバイオマーカーとして注目されている。従来の認知障害検出法は、音声から抽出された音響的特徴と言語的特徴に基づいて訓練された教師付きモデルに依存している。音声入力とテキスト入力の両方を処理可能なモデルであるQwen2- Audio AudioLLMを用いた,最初のゼロショット音声ベースのCI検出手法を提案する。
論文参考訳（メタデータ） (2025-06-20T01:28:43Z)
Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis [6.858439600092057]
音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
論文参考訳（メタデータ） (2025-02-20T16:52:55Z)
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis [0.6062751776009752]
軽度認知障害と認知スコアを予測できるマルチモーダルモデルを提案する。提案モデルでは,インタビューで使用した言語を書き起こし,区別する能力を示す。提案手法では,提案手法から得られた様々な特徴を詳細に検討する。
論文参考訳（メタデータ） (2024-06-11T17:59:31Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Collaborative Watermarking for Adversarial Speech Synthesis [0.0]
合成音声透かしのための協調学習手法を提案する。 ASVspoof 2021ベースライン対策モデルと協調したHiFi-GANニューラルボコーダが検出性能を継続的に向上することを示す。
論文参考訳（メタデータ） (2023-09-26T19:43:14Z)
Exploring Multimodal Approaches for Alzheimer's Disease Detection Using Patient Speech Transcript and Audio Data [10.782153332144533]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
論文参考訳（メタデータ） (2023-07-05T12:40:11Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文参考訳（メタデータ） (2023-03-14T16:03:28Z)
An Approach to Mispronunciation Detection and Diagnosis with Acoustic, Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文参考訳（メタデータ） (2021-10-14T11:25:02Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。