論文の概要: Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis
- arxiv url: http://arxiv.org/abs/2207.13064v1
- Date: Tue, 26 Jul 2022 17:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:24:05.047103
- Title: Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis
- Title(参考訳): 顔を超えたビデオ操作: ヒューマンマシン分析によるデータセット
- Authors: Trisha Mittal, Ritwik Sinha, Viswanathan Swaminathan, John Collomosse,
Dinesh Manocha
- Abstract要約: 我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
- 参考スコア(独自算出の注目度): 60.13902294276283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As tools for content editing mature, and artificial intelligence (AI) based
algorithms for synthesizing media grow, the presence of manipulated content
across online media is increasing. This phenomenon causes the spread of
misinformation, creating a greater need to distinguish between "real'' and
"manipulated'' content. To this end, we present VideoSham, a dataset consisting
of 826 videos (413 real and 413 manipulated). Many of the existing deepfake
datasets focus exclusively on two types of facial manipulations -- swapping
with a different subject's face or altering the existing face. VideoSham, on
the other hand, contains more diverse, context-rich, and human-centric,
high-resolution videos manipulated using a combination of 6 different spatial
and temporal attacks. Our analysis shows that state-of-the-art manipulation
detection algorithms only work for a few specific attacks and do not scale well
on VideoSham. We performed a user study on Amazon Mechanical Turk with 1200
participants to understand if they can differentiate between the real and
manipulated videos in VideoSham. Finally, we dig deeper into the strengths and
weaknesses of performances by humans and SOTA-algorithms to identify gaps that
need to be filled with better AI algorithms.
- Abstract(参考訳): コンテンツ編集ツールが成熟し、メディアを合成する人工知能(AI)ベースのアルゴリズムが成長するにつれ、オンラインメディア全体で操作されたコンテンツの存在が高まっている。
この現象は誤報の拡散を引き起こし、「リアル」と「操作された」コンテンツを区別する必要性が高まる。
この目的のために、videoshamという826の動画(413のリアルと413の操作)からなるデータセットを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
一方videoshamは、6つの異なる空間攻撃と時間攻撃を組み合わせて操作される、より多様でコンテキストが豊富で、人間中心で高解像度なビデオを含んでいる。
解析の結果,最先端のマニピュレーション検出アルゴリズムは,特定の攻撃に対してのみ有効であり,videoshamではスケールしないことがわかった。
1200人の参加者とともにAmazon Mechanical Turkのユーザスタディを行い、VideoShamの実際のビデオと操作されたビデオを区別できるかどうかを調べた。
最後に、人間とsoma-algorithmsによるパフォーマンスの強みと弱みを深く掘り下げて、より良いaiアルゴリズムで埋める必要があるギャップを特定します。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - Detecting Deep-Fake Videos from Appearance and Behavior [0.0]
本稿では,顔洗脳深部偽物検出のためのバイオメトリックスに基づく法医学的手法について述べる。
複数の大規模ビデオデータセットにまたがって,このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-04-29T21:38:22Z) - Video Face Manipulation Detection Through Ensemble of CNNs [17.051112469244778]
現代の顔操作技術をターゲットにした映像系列における顔操作検出の課題に対処する。
特に、異なる訓練された畳み込みニューラルネットワーク(CNN)モデルのアンサンブルについて検討する。
これらのネットワークを組み合わせることで、2つの公開データセット上での顔操作検出結果が期待できることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。