論文の概要: As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli
- arxiv url: http://arxiv.org/abs/2403.16760v1
- Date: Mon, 25 Mar 2024 13:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:03:02.311660
- Title: As Good As A Coin Toss Human detection of AI-generated images, videos, audio, and audiovisual stimuli
- Title(参考訳): AIが生成した画像、ビデオ、オーディオ、およびオーディオ視覚刺激の人間の検出に役立てる
- Authors: Di Cooke, Abigail Edwards, Sophia Barkoff, Kathryn Kelly,
- Abstract要約: 合成メディアによる誤解に対する主な防御は、人間の観察者が実物と偽物とを視覚的に聴覚的に識別する能力に依存する。
被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense.
- Abstract(参考訳): 合成メディアが徐々に現実的になり、それを使うための障壁が減っていくにつれて、この技術は、金融詐欺から非合意ポルノまで、悪意ある目的のためにますます利用されてきた。
今日では、合成メディアによる誤解に対する主要な防御は、人間の観察者が現実と偽の区別を視覚的に、聴覚的に行う能力に依存している。
しかし、人々が日々の生活の中で人工メディアを欺くのにどれほど脆弱かは、まだ不明だ。
被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。
人々が野生で合成メディアに遭遇する可能性のある状況を反映するために、テスト条件と刺激が典型的なオンラインプラットフォームをエミュレートした。
全体として、参加者は、合成コンテンツと真正コンテンツとを有意義に区別することに苦労していた。
また、刺激が合成内容を含むと検出性能が悪化し、非顔オブジェクトと比較して人間の顔が特徴付けられる画像、マルチモーダル刺激と比較して単一のモダリティ、オーディオ視覚刺激の完全合成に比べて混合された認証性が低下し、観察者が習熟している言語と比較して外国語が特徴的であることも見いだした。
最後に, 合成メディアの先行知識が検出性能に有意な影響を及ぼさないことも確認した。
これらの結果は, 日常の合成メディアに騙される可能性が高く, 人間の知覚検出能力は, 効果的な防御手段として信頼できないことを示唆している。
関連論文リスト
- Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - A Representative Study on Human Detection of Artificially Generated
Media Across Countries [28.99277150719848]
最先端の偽造品は「本物の」メディアとほとんど区別がつかない。
大多数の参加者は、いつ人間や機械が生成したと評価するかを単に推測している。
さらに、AIによって生成されたメディア受信は、あらゆるメディアタイプとすべての国で、より人間らしく投票される。
論文 参考訳(メタデータ) (2023-12-10T19:34:52Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - The Age of Synthetic Realities: Challenges and Opportunities [85.058932103181]
我々は、有害な合成生成を識別し、それらを現実と区別することのできる法医学的手法の開発における重要な必要性を強調した。
我々の焦点は、画像、ビデオ、オーディオ、テキストなどの様々なメディアの形式にまで及んでいる。
この研究は、AI生成技術の急速な進歩と、法科学の基本原理に対する影響により、最も重要である。
論文 参考訳(メタデータ) (2023-06-09T15:55:10Z) - Deep Learning and Synthetic Media [0.0]
このようなパイプラインで生成された"ディープフェイク"と関連する合成メディアは、単に従来の方法よりも漸進的な改善を提供するだけではない、と私は主張する。
このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、真に新しい種類のオーディオヴィジュアルメディアの道を開いたと私は主張する。
論文 参考訳(メタデータ) (2022-05-11T20:28:09Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - More Real than Real: A Study on Human Visual Perception of Synthetic
Faces [7.25613186882905]
本稿では,最先端のジェネレーティブ・ディバイザリー・ネットワークが生み出した合成顔画像にボランティアが露出する知覚実験について述べる。
実験結果から、現代のAIによって生成された合成顔と実際の顔を区別する人間の能力に疑問を投げかけるべきかどうかが明らかになる。
論文 参考訳(メタデータ) (2021-06-14T08:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。