論文の概要: As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli
- arxiv url: http://arxiv.org/abs/2403.16760v4
- Date: Tue, 25 Feb 2025 10:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:17:51.016037
- Title: As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli
- Title(参考訳): As Good As A Coin Toss:AI生成画像、ビデオ、オーディオ、オーディオ視覚刺激の人間の検出
- Authors: Di Cooke, Abigail Edwards, Sophia Barkoff, Kathryn Kelly,
- Abstract要約: 本研究は,1276名の被験者を対象に,真偽メディアと合成メディアの識別能力を評価するための知覚的研究を行った。
その結果、平均的な検出性能は50%に近づき、合成メディアと真正メディアの区別に苦慮していることがわかった。
また,任意の種類の合成コンテンツを含む刺激が外国語を特徴とし,メディアタイプが単一モダリティである場合には,精度が低下することが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Despite advancements in technology led synthetic media authentication and recent government efforts to address the threats posed by maliciously employed synthetic content via the mechanisms of law or through more public education, one of the current principal defenses against weaponized synthetic media continues to be the ability of the targeted individual to visually or auditorily recognize AI-generated content when they encounter it. However, as the realism of synthetic media continues to rapidly improve, it is vital to have an accurate understanding of just how susceptible people currently are to potentially being misled by convincing but false AI generated content. We conducted a perceptual study with 1276 participants to assess how capable people were at distinguishing between authentic and synthetic images, audio, video, and audiovisual media. We find that on average, people struggled to distinguish between synthetic and authentic media, with the mean detection performance close to a chance level performance of 50%. We also find that accuracy rates worsen when the stimuli contain any degree of synthetic content, features foreign languages, and the media type is a single modality. People are also less accurate at identifying synthetic images when they feature human faces, and when audiovisual stimuli have heterogeneous authenticity. Finally, we find that higher degrees of prior knowledgeability about synthetic media does not significantly impact detection accuracy rates, but age does, with older individuals performing worse than their younger counterparts. Collectively, these results highlight that it is no longer feasible to rely on the perceptual capabilities of people to protect themselves against the growing threat of weaponized synthetic media, and that the need for alternative countermeasures is more critical than ever before.
- Abstract(参考訳): 合成メディア認証の進歩や、法律のメカニズムやより公共教育を通じて悪質に採用されている合成コンテンツの脅威に対処する最近の政府の取り組みにもかかわらず、現在、兵器化された合成メディアに対する主要な防御の1つは、AIが生成したコンテンツを視覚的に、あるいは聴覚的に認識する能力である。
しかし、合成メディアの現実性は急速に向上し続けており、現在人々がいかに、疑わしいが偽のAI生成コンテンツによって誤解される可能性があるかを正確に理解することが不可欠である。
被験者1276名を対象に,映像,音声,ビデオ,映像の識別能力の評価を行った。
その結果、平均的な検出性能は50%に近づき、合成メディアと真正メディアの区別に苦慮していることがわかった。
また, 刺激が合成内容の程度を含まない場合, 外国語が特徴であり, メディアタイプが単一モダリティである場合には, 精度が低下することが判明した。
また、人間の顔を特徴付けるときや、オーディオ視覚刺激が不均一な正当性を持つときなど、合成画像を識別する能力も低い。
最後に, 合成メディアに関する先行知識度は, 検出精度に有意な影響を及ぼさないが, 年齢には影響し, 高齢者の行動は若年者よりも悪化することがわかった。
これらの結果は、武器化された合成メディアの脅威が拡大する中、人々の知覚能力に頼って身を守ることはもはや不可能であり、代替対策の必要性がこれまで以上に重要になっていることを浮き彫りにしている。
関連論文リスト
- Adult learners recall and recognition performance and affective feedback when learning from an AI-generated synthetic video [1.7742433461734404]
この研究は500人の参加者を募集し、大人の学習者のリコールと認識のパフォーマンス、AI生成合成ビデオに対する感情的なフィードバックについて調査した。
その結果,リコールおよび認識性能の条件間で統計的に有意な差は認められなかった。
しかし、成人の学習者はテキストではなくビデオ形式から学ぶことを好んだ。
論文 参考訳(メタデータ) (2024-11-28T21:40:28Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - The Age of Synthetic Realities: Challenges and Opportunities [85.058932103181]
我々は、有害な合成生成を識別し、それらを現実と区別することのできる法医学的手法の開発における重要な必要性を強調した。
我々の焦点は、画像、ビデオ、オーディオ、テキストなどの様々なメディアの形式にまで及んでいる。
この研究は、AI生成技術の急速な進歩と、法科学の基本原理に対する影響により、最も重要である。
論文 参考訳(メタデータ) (2023-06-09T15:55:10Z) - Deep Learning and Synthetic Media [0.0]
このようなパイプラインで生成された"ディープフェイク"と関連する合成メディアは、単に従来の方法よりも漸進的な改善を提供するだけではない、と私は主張する。
このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、真に新しい種類のオーディオヴィジュアルメディアの道を開いたと私は主張する。
論文 参考訳(メタデータ) (2022-05-11T20:28:09Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - More Real than Real: A Study on Human Visual Perception of Synthetic
Faces [7.25613186882905]
本稿では,最先端のジェネレーティブ・ディバイザリー・ネットワークが生み出した合成顔画像にボランティアが露出する知覚実験について述べる。
実験結果から、現代のAIによって生成された合成顔と実際の顔を区別する人間の能力に疑問を投げかけるべきかどうかが明らかになる。
論文 参考訳(メタデータ) (2021-06-14T08:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。