論文の概要: Human Detection of Political Speech Deepfakes across Transcripts, Audio,
and Video
- arxiv url: http://arxiv.org/abs/2202.12883v4
- Date: Mon, 15 Jan 2024 22:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 04:09:00.542564
- Title: Human Detection of Political Speech Deepfakes across Transcripts, Audio,
and Video
- Title(参考訳): 転写, 音声, ビデオ間での政治音声のディープフェイク検出
- Authors: Matthew Groh, Aruna Sankaranarayanan, Nikhil Singh, Dong Young Kim,
Andrew Lippman, Rosalind Picard
- Abstract要約: 超現実的な視覚効果と音声効果の技術の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。
我々は,2,215人の参加者による5つの事前登録されたランダム化実験を行い,人間が実際の政治的言論と製法をいかに正確に区別するかを評価する。
音声アクターの音声と同一のディープフェイクよりも、最先端のテキスト音声合成アルゴリズムが生成するオーディオでは、誤情報のベースレートが識別やディープフェイクに最小限に影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 4.78385214366452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in technology for hyper-realistic visual and audio effects
provoke the concern that deepfake videos of political speeches will soon be
indistinguishable from authentic video recordings. The conventional wisdom in
communication theory predicts people will fall for fake news more often when
the same version of a story is presented as a video versus text. We conduct 5
pre-registered randomized experiments with 2,215 participants to evaluate how
accurately humans distinguish real political speeches from fabrications across
base rates of misinformation, audio sources, question framings, and media
modalities. We find base rates of misinformation minimally influence
discernment and deepfakes with audio produced by the state-of-the-art
text-to-speech algorithms are harder to discern than the same deepfakes with
voice actor audio. Moreover across all experiments, we find audio and visual
information enables more accurate discernment than text alone: human
discernment relies more on how something is said, the audio-visual cues, than
what is said, the speech content.
- Abstract(参考訳): 超現実的な視覚効果と音声効果の技術の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。
コミュニケーション理論における従来の知恵は、ストーリーの同じバージョンがビデオ対テキストとして提示される場合、人々はよりフェイクニュースに陥るであろうと予測している。
2,215名を対象に,事前登録されたランダム化実験を5回実施し,実際の政治演説と,誤情報,音声ソース,質問フレーミング,メディアモダリティのベースレートを比較検討した。
音声アクターの音声と同一のディープフェイクよりも、最先端のテキスト音声合成アルゴリズムが生成するオーディオでは、誤情報のベースレートが識別やディープフェイクに最小限に影響を及ぼすことがわかった。
さらに、すべての実験を通じて、音声と視覚情報は、テキストのみよりも正確な識別を可能にすることがわかった。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Human Brain Exhibits Distinct Patterns When Listening to Fake Versus Real Audio: Preliminary Evidence [10.773283625658513]
本稿では,実聴・偽聴における脳活動の変動について検討する。
予備的な結果は、最先端のディープフェイクオーディオ検出アルゴリズムによって学習された表現は、実際の音声と偽オーディオの間に明確なパターンを示さないことを示唆している。
論文 参考訳(メタデータ) (2024-02-22T21:44:58Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。