論文の概要: Human Detection of Political Deepfakes across Transcripts, Audio, and
Video
- arxiv url: http://arxiv.org/abs/2202.12883v1
- Date: Fri, 25 Feb 2022 18:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:17:23.772066
- Title: Human Detection of Political Deepfakes across Transcripts, Audio, and
Video
- Title(参考訳): 転写, 音声, ビデオによる政治的ディープフェイクの人為的検出
- Authors: Matthew Groh, Aruna Sankaranarayanan, Rosalind Picard
- Abstract要約: 我々は、コミュニケーションのモダリティが、実際の政治演説を製造と区別する人々の能力にどのように影響するかを示す。
参加者はサイレントビデオよりも音声の方が正確で、テキストの書き起こしよりもサイレントビデオの方が正確である。
政治家の信念に対する大衆の認識と一致しない政治演説は、参加者の視覚的手がかりへの依存を減少させる。
- 参考スコア(独自算出の注目度): 2.112009946111541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in technology for hyper-realistic visual effects provoke the
concern that deepfake videos of political speeches will soon be visually
indistinguishable from authentic video recordings. Yet there exists little
empirical research on how audio-visual information influences people's
susceptibility to fall for political misinformation. The conventional wisdom in
the field of communication research predicts that people will fall for fake
news more often when the same version of a story is presented as a video as
opposed to text. However, audio-visual manipulations often leave distortions
that some but not all people may pick up on. Here, we evaluate how
communication modalities influence people's ability to discern real political
speeches from fabrications based on a randomized experiment with 5,727
participants who provide 61,792 truth discernment judgments. We show
participants soundbites from political speeches that are randomly assigned to
appear using permutations of text, audio, and video modalities. We find that
communication modalities mediate discernment accuracy: participants are more
accurate on video with audio than silent video, and more accurate on silent
video than text transcripts. Likewise, we find participants rely more on how
something is said (the audio-visual cues) rather than what is said (the speech
content itself). However, political speeches that do not match public
perceptions of politicians' beliefs reduce participants' reliance on visual
cues. In particular, we find that reflective reasoning moderates the degree to
which participants consider visual information: low performance on the
Cognitive Reflection Test is associated with an underreliance on visual cues
and an overreliance on what is said.
- Abstract(参考訳): 超現実的な視覚効果の技術の最近の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。
しかし、音声・視覚情報がどのように人々の政治的誤報への認識に影響を及ぼすかに関する実証的研究はほとんどない。
コミュニケーション研究の分野における従来の知恵は、ストーリーの同じバージョンがテキストではなくビデオとして提示される場合、人々はよりフェイクニュースに陥りやすいと予測している。
しかし、音声と視覚の操作は、一部の人が思いつくであろう歪みを残していることが多い。
本稿では,61,792の真偽判定を行う5,727人の参加者によるランダムな実験に基づいて,コミュニケーションのモダリティが実際の政治的発言を作文から識別する能力に与える影響を評価する。
テキスト,音声,ビデオのモーダリティの順列を用いて,ランダムに出現するように割り当てられた政治演説の音声ビットを示す。
参加者はサイレントビデオよりも音声によるビデオの方が正確であり、サイレントビデオではテキストの書き起こしよりも正確である。
同様に、参加者は発言する内容(音声内容そのもの)よりも、発言する内容(音声・視覚的手がかり)にもっと依存している。
しかし、政治家の信念に対する大衆の認識に合わない政治的スピーチは、参加者の視覚的手がかりへの依存を減らす。
特に、反射的推論は、参加者が視覚情報を考える程度を緩やかにする:認知的反射テストにおける低パフォーマンスは、視覚的手がかりに対する過度な信頼と、その発言に対する過度な信頼と関連している。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Human Brain Exhibits Distinct Patterns When Listening to Fake Versus Real Audio: Preliminary Evidence [10.773283625658513]
本稿では,実聴・偽聴における脳活動の変動について検討する。
予備的な結果は、最先端のディープフェイクオーディオ検出アルゴリズムによって学習された表現は、実際の音声と偽オーディオの間に明確なパターンを示さないことを示唆している。
論文 参考訳(メタデータ) (2024-02-22T21:44:58Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。