論文の概要: Seeing, Hearing, and Knowing Together: Multimodal Strategies in Deepfake Videos Detection
- arxiv url: http://arxiv.org/abs/2602.01284v1
- Date: Sun, 01 Feb 2026 15:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.695123
- Title: Seeing, Hearing, and Knowing Together: Multimodal Strategies in Deepfake Videos Detection
- Title(参考訳): ディープフェイクビデオ検出におけるマルチモーダル戦略
- Authors: Chen Chen, Dion Hoe-Lian Goh,
- Abstract要約: 実際の映像と深層映像を判定し、信頼度を評価し、視覚、音声、知識の戦略に頼った手がかりを報告した195人の被験者を対象に調査を行った。
参加者は、ディープフェイクよりもリアルビデオの方が正確で、リアルコンテンツに対するキャリブレーション誤差が低かった。
以上の結果から,メディアリテラシーツールを効果的に活用するためには,どの手がかりが有効なのか,あるいは検出の妨げになるのかが示唆された。
- 参考スコア(独自算出の注目度): 5.353466593055593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deepfake videos become increasingly difficult for people to recognise, understanding the strategies humans use is key to designing effective media literacy interventions. We conducted a study with 195 participants between the ages of 21 and 40, who judged real and deepfake videos, rated their confidence, and reported the cues they relied on across visual, audio, and knowledge strategies. Participants were more accurate with real videos than with deepfakes and showed lower expected calibration error for real content. Through association rule mining, we identified cue combinations that shaped performance. Visual appearance, vocal, and intuition often co-occurred for successful identifications, which highlights the importance of multimodal approaches in human detection. Our findings show which cues help or hinder detection and suggest directions for designing media literacy tools that guide effective cue use. Building on these insights can help people improve their identification skills and become more resilient to deceptive digital media.
- Abstract(参考訳): ディープフェイクビデオは、人々が認識することがますます難しくなっているので、人間が使用する戦略を理解することが、効果的なメディアリテラシーの介入を設計するための鍵となる。
21歳から40歳までの被験者195名を対象に,実写映像と深層映像を判定し,信頼度を評価し,視覚的,音声的,知識的戦略に頼っていた手がかりを報告する。
参加者は、ディープフェイクよりもリアルビデオの方が正確で、リアルコンテンツに対するキャリブレーション誤差が低かった。
関連ルールマイニングを通じて、私たちはパフォーマンスを形作るキューの組み合わせを特定しました。
視覚的外見、声、直感はしばしば、人間の検出におけるマルチモーダルアプローチの重要性を強調する、成功した識別のために共起される。
以上の結果から,メディアリテラシーツールを効果的に活用するためには,どの手がかりが有効なのか,あるいは検出の妨げになるのかが示唆された。
これらの洞察に基づいて構築することで、人々は識別スキルを向上し、デジタルメディアを欺くことへの耐性を高めることができる。
関連論文リスト
- Digital literacy interventions can boost humans in discerning deepfakes [20.57872238271025]
ディープフェイク(Deepfakes)、すなわち人工知能(AI)が生成した画像は、機関への信頼を損なうことができ、選挙結果を損なうことができる。
ここでは、ディープフェイクの識別能力を高めるために、5つのデジタルリテラシー介入の有効性を比較した。
以上の結果から,実際の画像の信頼を保ちながら,奥行き認識を最大13%向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-07-31T12:23:45Z) - Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。
ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。
本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文 参考訳(メタデータ) (2024-11-12T09:02:11Z) - AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。