論文の概要: OmniFD: A Unified Model for Versatile Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2512.01128v1
- Date: Sun, 30 Nov 2025 22:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.599468
- Title: OmniFD: A Unified Model for Versatile Face Forgery Detection
- Title(参考訳): OmniFD:Versatile Face Forgery Detectionの統一モデル
- Authors: Haotian Liu, Haoyu Chen, Chenhui Pan, You Hu, Guoying Zhao, Xiaobai Li,
- Abstract要約: OmniFDは、単一のモデル内で4つのコアフォージェリ検出タスクを共同で処理する統合フレームワークである。
本アーキテクチャは,(1)画像と映像の両方から統合された4次元時間表現を抽出する共有スウィン変換器,(2)学習可能なクエリを持つクロスタスクインタラクションモジュール,(3)洗練された表現を対応する予測に変換する軽量デコードヘッドの3つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 45.17431538516313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face forgery detection encompasses multiple critical tasks, including identifying forged images and videos and localizing manipulated regions and temporal segments. Current approaches typically employ task-specific models with independent architectures, leading to computational redundancy and ignoring potential correlations across related tasks. We introduce OmniFD, a unified framework that jointly addresses four core face forgery detection tasks within a single model, i.e., image and video classification, spatial localization, and temporal localization. Our architecture consists of three principal components: (1) a shared Swin Transformer encoder that extracts unified 4D spatiotemporal representations from both images and video inputs, (2) a cross-task interaction module with learnable queries that dynamically captures inter-task dependencies through attention-based reasoning, and (3) lightweight decoding heads that transform refined representations into corresponding predictions for all FFD tasks. Extensive experiments demonstrate OmniFD's advantage over task-specific models. Its unified design leverages multi-task learning to capture generalized representations across tasks, especially enabling fine-grained knowledge transfer that facilitates other tasks. For example, video classification accuracy improves by 4.63% when image data are incorporated. Furthermore, by unifying images, videos and the four tasks within one framework, OmniFD achieves superior performance across diverse benchmarks with high efficiency and scalability, e.g., reducing 63% model parameters and 50% training time. It establishes a practical and generalizable solution for comprehensive face forgery detection in real-world applications. The source code is made available at https://github.com/haotianll/OmniFD.
- Abstract(参考訳): 顔偽造検出は、偽造画像やビデオの識別、操作された領域と時間セグメントのローカライズなど、複数の重要なタスクを含む。
現在のアプローチでは、一般に独立したアーキテクチャを持つタスク固有モデルを採用しており、計算冗長性や関連するタスク間の潜在的な相関を無視している。
OmniFDは,画像と映像の分類,空間的局所化,時間的局所化という,単一のモデル内で4つの顔偽造検出タスクを共同で処理する統合フレームワークである。
本アーキテクチャは,(1)画像と映像の両方から統合された4次元時空間表現を抽出する共有Swin Transformerエンコーダ,(2)注目に基づく推論によってタスク間の依存関係を動的にキャプチャする学習可能なクエリを用いたクロスタスクインタラクションモジュール,(3)洗練された表現をすべてのFFDタスクに対応する予測に変換する軽量デコードヘッドからなる。
大規模な実験は、OmniFDのタスク固有モデルに対する優位性を実証している。
その統一設計はマルチタスク学習を活用し、タスク間の一般化された表現をキャプチャする。
例えば、画像データが組み込まれた場合、映像分類精度は4.63%向上する。
さらに、画像、ビデオ、および4つのタスクをひとつのフレームワークに統合することにより、OmniFDは、高い効率とスケーラビリティを備えたさまざまなベンチマーク、例えば63%のモデルパラメータと50%のトレーニング時間で優れたパフォーマンスを達成する。
現実のアプリケーションにおいて、包括的顔偽造検出のための実用的で一般化可能なソリューションを確立する。
ソースコードはhttps://github.com/haotianll/OmniFD.comで公開されている。
関連論文リスト
- Face, Whole-Person, and Object Classification in a Unified Space Via The Interleaved Multi-Domain Identity Curriculum [0.764671395172401]
ビジョンファウンデーションモデルは、ゼロショットモードで一般化されたオブジェクト分類を実行し、微調整されたときに顔と人物の認識を行うことができる。
我々は,4つのタスク(物体認識,高品質・低品質画像からの顔認識,全身画像からの人物認識)を1つの埋め込み空間で行うモデルを作成する。
IIC(Interleaved Multi-Domain Identity Curriculum)の2つの変種を紹介する。
論文 参考訳(メタデータ) (2025-11-25T02:23:10Z) - MTMed3D: A Multi-Task Transformer-Based Model for 3D Medical Imaging [5.169719124205838]
本稿では,MTMed3Dを提案する。MTMed3Dは,単一タスクモデルの制約に対処するための,エンドツーエンドのマルチタスクトランスフォーマーモデルである。
我々のモデルは、共有エンコーダとしてTransformerを使用して、CNNベースのタスク固有デコーダに続き、マルチスケール機能を生成する。
論文 参考訳(メタデータ) (2025-11-15T22:27:49Z) - Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition [33.22316608406554]
本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。
具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。
我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
論文 参考訳(メタデータ) (2025-05-09T12:34:10Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。