論文の概要: Listening for Expert Identified Linguistic Features: Assessment of Audio Deepfake Discernment among Undergraduate Students
- arxiv url: http://arxiv.org/abs/2411.14586v1
- Date: Thu, 21 Nov 2024 20:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:11.674452
- Title: Listening for Expert Identified Linguistic Features: Assessment of Audio Deepfake Discernment among Undergraduate Students
- Title(参考訳): 専門的言語的特徴の聴取:大学生の音声深度識別の評価
- Authors: Noshaba N. Bhalli, Nehal Naqvi, Chloe Evered, Christine Mallinson, Vandana P. Janeja,
- Abstract要約: 本稿では,専門家が定義した言語的特徴を聴くことで,大学生が音声深層認識能力を向上させるための教育効果を評価する。
我々の研究は、ディープフェイク識別メカニズムとして、ターゲット言語的手がかりをリスナーに導入することで、情報教育に留まらない。
その結果, 実験群は, 音声クリップの評価における不確実性が統計的に顕著に低下し, 当初不確実であったクリップを正確に識別する能力が向上したことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper evaluates the impact of training undergraduate students to improve their audio deepfake discernment ability by listening for expert-defined linguistic features. Such features have been shown to improve performance of AI algorithms; here, we ascertain whether this improvement in AI algorithms also translates to improvement of the perceptual awareness and discernment ability of listeners. With humans as the weakest link in any cybersecurity solution, we propose that listener discernment is a key factor for improving trustworthiness of audio content. In this study we determine whether training that familiarizes listeners with English language variation can improve their abilities to discern audio deepfakes. We focus on undergraduate students, as this demographic group is constantly exposed to social media and the potential for deception and misinformation online. To the best of our knowledge, our work is the first study to uniquely address English audio deepfake discernment through such techniques. Our research goes beyond informational training by introducing targeted linguistic cues to listeners as a deepfake discernment mechanism, via a training module. In a pre-/post- experimental design, we evaluated the impact of the training across 264 students as a representative cross section of all students at the University of Maryland, Baltimore County, and across experimental and control sections. Findings show that the experimental group showed a statistically significant decrease in their unsurety when evaluating audio clips and an improvement in their ability to correctly identify clips they were initially unsure about. While results are promising, future research will explore more robust and comprehensive trainings for greater impact.
- Abstract(参考訳): 本稿では,専門家が定義した言語的特徴を聴くことで,大学生が音声深層認識能力を向上させるための教育効果を評価する。
このような特徴はAIアルゴリズムの性能を向上させることが示されており、ここでは、このAIアルゴリズムの改善がリスナーの知覚的認識と認識能力の向上にも寄与するかどうかを確認する。
サイバーセキュリティソリューションにおいて人間を最も弱いリンクとすることで、聴取者の識別がオーディオコンテンツの信頼性向上の鍵となることを提案する。
本研究では,聴取者の言語変化に慣れ親しんだ学習が,音声のディープフェイクを識別する能力を向上させるかどうかを判断する。
我々は、この人口集団が常にソーシャルメディアに露出し、詐欺や誤情報の可能性に焦点を絞っているため、学部生に焦点をあてる。
我々の知識を最大限に活用するために、我々の研究は英語のディープフェイク識別をこのような手法で一意に扱う最初の研究である。
我々の研究は、学習モジュールを介して、ディープフェイク識別メカニズムとしてリスナーにターゲット言語的手がかりを導入することで、情報教育を超えています。
プレ/ポスト実験設計では,メリーランド大学ボルチモア校の全学生の代表的クロスセクションとして,264名の学生を対象に,実験的および制御的セクションにおけるトレーニングの効果を評価した。
その結果, 実験群は, 音声クリップの評価における不確実性が統計的に顕著に低下し, 当初不確実であったクリップを正確に識別する能力が向上したことがわかった。
結果は有望だが、将来の研究はより堅牢で包括的なトレーニングを探求し、より大きな影響を与えるだろう。
関連論文リスト
- Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses [0.08155575318208629]
音声匿名化は、話者のアイデンティティを曖昧にしつつ、その後のタスクに重要な情報を保持する必要がある。
本研究は,人間の聴覚システムにインスパイアされた損失関数の重要性を浮き彫りにする。
提案する損失関数はモデルに依存しず,手工芸と深層学習を併用して品質表現を効果的に把握する。
論文 参考訳(メタデータ) (2024-10-20T20:33:44Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Learning in Audio-visual Context: A Review, Analysis, and New
Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文 参考訳(メタデータ) (2022-08-20T02:15:44Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Estimating Presentation Competence using Multimodal Nonverbal Behavioral
Cues [7.340483819263093]
社会的相互作用の多くの領域において、公的な講演やプレゼンテーション能力が重要な役割を担っている。
プレゼンテーション能力の効率的な開発を促進する1つのアプローチは、スピーチ中の人間の行動の自動分析である。
本研究では, 表情, ポーズベース, 音声関連機能など, さまざまな非言語行動手がかりの提示能力評価への寄与について検討する。
論文 参考訳(メタデータ) (2021-05-06T13:09:41Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。