論文の概要: As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli
- arxiv url: http://arxiv.org/abs/2403.16760v3
- Date: Thu, 4 Apr 2024 14:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-05 19:14:11.987713
- Title: As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli
- Title(参考訳): As Good As A Coin Toss:AI生成画像、ビデオ、オーディオ、オーディオ視覚刺激の人間の検出
- Authors: Di Cooke, Abigail Edwards, Sophia Barkoff, Kathryn Kelly,
- Abstract要約: 合成メディアによる誤解に対する主な防御は、人間の観察者が実物と偽物とを視覚的に聴覚的に識別する能力に依存する。
被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense.
- Abstract(参考訳): 合成メディアが徐々に現実的になり、それを使うための障壁が減っていくにつれて、この技術は、金融詐欺から非合意ポルノまで、悪意ある目的のためにますます利用されてきた。
今日では、合成メディアによる誤解に対する主要な防御は、人間の観察者が現実と偽の区別を視覚的に、聴覚的に行う能力に依存している。
しかし、人々が日々の生活の中で人工メディアを欺くのにどれほど脆弱かは、まだ不明だ。
被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。
人々が野生で合成メディアに遭遇する可能性のある状況を反映するために、テスト条件と刺激が典型的なオンラインプラットフォームをエミュレートした。
全体として、参加者は、合成コンテンツと真正コンテンツとを有意義に区別することに苦労していた。
また、刺激が合成内容を含むと検出性能が悪化し、非顔オブジェクトと比較して人間の顔が特徴付けられる画像、マルチモーダル刺激と比較して単一のモダリティ、オーディオ視覚刺激の完全合成に比べて混合された認証性が低下し、観察者が習熟している言語と比較して外国語が特徴的であることも見いだした。
最後に, 合成メディアの先行知識が検出性能に有意な影響を及ぼさないことも確認した。
これらの結果は, 日常の合成メディアに騙される可能性が高く, 人間の知覚検出能力は, 効果的な防御手段として信頼できないことを示唆している。
関連論文リスト
- Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Steganography Beyond Space-Time with Chain of Multimodal AI [8.095373104009868]
ステガノグラフィー(英: Steganography)は、隠蔽文学の芸術と科学である。
人工知能が進化を続けるにつれて、現実的なコンテンツを合成する能力は、サイバー犯罪の脅威として現れます。
本研究は,空間的・時間的領域を超えてメッセージが隠蔽される聴覚メディアのためのステガノグラフィーのパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:56:09Z) - Adult learners recall and recognition performance and affective feedback when learning from an AI-generated synthetic video [1.7742433461734404]
この研究は500人の参加者を募集し、大人の学習者のリコールと認識のパフォーマンス、AI生成合成ビデオに対する感情的なフィードバックについて調査した。
その結果,リコールおよび認識性能の条件間で統計的に有意な差は認められなかった。
しかし、成人の学習者はテキストではなくビデオ形式から学ぶことを好んだ。
論文 参考訳(メタデータ) (2024-11-28T21:40:28Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - A Representative Study on Human Detection of Artificially Generated
Media Across Countries [28.99277150719848]
最先端の偽造品は「本物の」メディアとほとんど区別がつかない。
大多数の参加者は、いつ人間や機械が生成したと評価するかを単に推測している。
さらに、AIによって生成されたメディア受信は、あらゆるメディアタイプとすべての国で、より人間らしく投票される。
論文 参考訳(メタデータ) (2023-12-10T19:34:52Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - The Age of Synthetic Realities: Challenges and Opportunities [85.058932103181]
我々は、有害な合成生成を識別し、それらを現実と区別することのできる法医学的手法の開発における重要な必要性を強調した。
我々の焦点は、画像、ビデオ、オーディオ、テキストなどの様々なメディアの形式にまで及んでいる。
この研究は、AI生成技術の急速な進歩と、法科学の基本原理に対する影響により、最も重要である。
論文 参考訳(メタデータ) (2023-06-09T15:55:10Z) - Seeing is not always believing: Benchmarking Human and Model Perception
of AI-Generated Images [66.20578637253831]
人工知能(AI)技術の進歩が偽写真を生み出すのではないかという懸念が高まっている。
本研究の目的は、最先端のAI生成視覚コンテンツを識別するためのエージェントを包括的に評価することである。
論文 参考訳(メタデータ) (2023-04-25T17:51:59Z) - Fighting Malicious Media Data: A Survey on Tampering Detection and
Deepfake Detection [115.83992775004043]
近年のディープラーニング、特に深層生成モデルの発展により、知覚的に説得力のある画像や動画を低コストで制作するための扉が開かれた。
本稿では,現在のメディアタンパリング検出手法を概観し,今後の研究の課題と動向について論じる。
論文 参考訳(メタデータ) (2022-12-12T02:54:08Z) - Deep Learning and Synthetic Media [0.0]
このようなパイプラインで生成された"ディープフェイク"と関連する合成メディアは、単に従来の方法よりも漸進的な改善を提供するだけではない、と私は主張する。
このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、真に新しい種類のオーディオヴィジュアルメディアの道を開いたと私は主張する。
論文 参考訳(メタデータ) (2022-05-11T20:28:09Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - More Real than Real: A Study on Human Visual Perception of Synthetic
Faces [7.25613186882905]
本稿では,最先端のジェネレーティブ・ディバイザリー・ネットワークが生み出した合成顔画像にボランティアが露出する知覚実験について述べる。
実験結果から、現代のAIによって生成された合成顔と実際の顔を区別する人間の能力に疑問を投げかけるべきかどうかが明らかになる。
論文 参考訳(メタデータ) (2021-06-14T08:27:25Z) - Are GAN generated images easy to detect? A critical analysis of the
state-of-the-art [22.836654317217324]
フォトリアリズムのレベルが高まるにつれて、合成媒体は実物とほとんど区別できないようになっている。
合成媒体を安定かつタイムリーに検出する自動ツールを開発することが重要である。
論文 参考訳(メタデータ) (2021-04-06T15:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。