論文の概要: GLCF: A Global-Local Multimodal Coherence Analysis Framework for Talking Face Generation Detection
- arxiv url: http://arxiv.org/abs/2412.13656v2
- Date: Mon, 24 Feb 2025 06:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:37.234856
- Title: GLCF: A Global-Local Multimodal Coherence Analysis Framework for Talking Face Generation Detection
- Title(参考訳): GLCF:顔生成検出のためのグローバルローカルマルチモーダルコヒーレンス分析フレームワーク
- Authors: Xiaocan Chen, Qilin Yin, Jiarui Liu, Wei Lu, Xiangyang Luo, Jiantao Zhou,
- Abstract要約: トーキング・フェイスジェネレーション(TFG)は、顔画像と付随するテキストのみを使用して、あらゆるキャラクターのライフライクなトーキングビデオを作成することができる。
音声とビデオの偽造技術を含むMSTF(Multi-Scenario talking face dataset)を構築した。
- 参考スコア(独自算出の注目度): 24.91359723174871
- License:
- Abstract: Talking face generation (TFG) allows for producing lifelike talking videos of any character using only facial images and accompanying text. Abuse of this technology could pose significant risks to society, creating the urgent need for research into corresponding detection methods. However, research in this field has been hindered by the lack of public datasets. In this paper, we construct the first large-scale multi-scenario talking face dataset (MSTF), which contains 22 audio and video forgery techniques, filling the gap of datasets in this field. The dataset covers 11 generation scenarios and more than 20 semantic scenarios, closer to the practical application scenario of TFG. Besides, we also propose a TFG detection framework, which leverages the analysis of both global and local coherence in the multimodal content of TFG videos. Therefore, a region-focused smoothness detection module (RSFDM) and a discrepancy capture-time frame aggregation module (DCTAM) are introduced to evaluate the global temporal coherence of TFG videos, aggregating multi-grained spatial information. Additionally, a visual-audio fusion module (V-AFM) is designed to evaluate audiovisual coherence within a localized temporal perspective. Comprehensive experiments demonstrate the reasonableness and challenges of our datasets, while also indicating the superiority of our proposed method compared to the state-of-the-art deepfake detection approaches.
- Abstract(参考訳): トーキング・フェイスジェネレーション(TFG)は、顔画像と付随するテキストのみを使用して、あらゆるキャラクターのライフライクなトーキングビデオを作成することができる。
この技術の使用は社会に重大なリスクをもたらす可能性があり、それに対応する検出方法の研究が緊急に必要となる。
しかし、この分野の研究は、公開データセットの欠如によって妨げられている。
本稿では,この分野におけるデータセットのギャップを埋める,22の音声とビデオの偽造技術を含む,最初の大規模マルチシナリオ音声顔データセット(MSTF)を構築する。
このデータセットは、TFGの実践的なアプリケーションシナリオに近い、11生成シナリオと20以上のセマンティックシナリオをカバーする。
また、TFGビデオのマルチモーダルコンテンツにおける大域的および局所的コヒーレンスの分析を利用するTFG検出フレームワークを提案する。
したがって、TFGビデオのグローバルな時間的コヒーレンスを評価するために、領域中心の滑らか度検出モジュール(RSFDM)と離散キャプチャ時間フレームアグリゲーションモジュール(DCTAM)を導入する。
さらに,視覚・オーディオ融合モジュール(V-AFM)は,局所的な時間的視点内での聴覚的コヒーレンスを評価するように設計されている。
包括的実験は、我々のデータセットの妥当性と課題を実証するとともに、提案手法が最先端のディープフェイク検出手法と比較して優れていることを示す。
関連論文リスト
- HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer [5.96521715927858]
HiFiSegは、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークである。
GLIMは並列構造を用いてグローバルおよびローカル情報を複数のスケールで融合し、より微細な特徴を効果的にキャプチャする。
SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-03T14:36:22Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Exploiting Facial Relationships and Feature Aggregation for Multi-Face
Forgery Detection [21.976412231332798]
既存の方法は、主に単面操作検出に集中しており、より複雑で現実的な多面フォージェリーの領域は、比較的探索されていないままである。
本稿では,多面フォージェリ検出に適した新しいフレームワークを提案し,現状の研究において重要なギャップを埋めている。
提案手法が多面フォージェリ検出シナリオにおける最先端性能を実現することを示すために,2つの公開多面フォージェリデータセットを用いた実験結果を得た。
論文 参考訳(メタデータ) (2023-10-07T15:09:18Z) - Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes [11.478236584340255]
雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。
また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2023-10-01T03:27:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。