論文の概要: TruthLens: Visual Grounding for Universal DeepFake Reasoning
- arxiv url: http://arxiv.org/abs/2503.15867v3
- Date: Wed, 03 Sep 2025 01:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:02.947525
- Title: TruthLens: Visual Grounding for Universal DeepFake Reasoning
- Title(参考訳): TruthLens:Universal DeepFake Reasoningのためのビジュアルグラウンド
- Authors: Rohit Kundu, Shan Jia, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury,
- Abstract要約: TruthLensは、従来のバイナリ分類を超えて、新しく、統一され、非常に一般化可能なフレームワークである。
きめ細かい領域を接地することで、高いレベルのシーン理解を統一することで、TruthLensは透過的なDeepFakeの法医学を提供します。
- 参考スコア(独自算出の注目度): 22.219182461279214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting DeepFakes has become a crucial research area as the widespread use of AI image generators enables the effortless creation of face-manipulated and fully synthetic content, while existing methods are often limited to binary classification (real vs. fake) and lack interpretability. To address these challenges, we propose TruthLens, a novel, unified, and highly generalizable framework that goes beyond traditional binary classification, providing detailed, textual reasoning for its predictions. Distinct from conventional methods, TruthLens performs MLLM grounding. TruthLens uses a task-driven representation integration strategy that unites global semantic context from a multimodal large language model (MLLM) with region-specific forensic cues through explicit cross-modal adaptation of a vision-only model. This enables nuanced, region-grounded reasoning for both face-manipulated and fully synthetic content, and supports fine-grained queries such as "Does the eyes/nose/mouth look real or fake?"- capabilities beyond pretrained MLLMs alone. Extensive experiments across diverse datasets demonstrate that TruthLens sets a new benchmark in both forensic interpretability and detection accuracy, generalizing to seen and unseen manipulations alike. By unifying high-level scene understanding with fine-grained region grounding, TruthLens delivers transparent DeepFake forensics, bridging a critical gap in the literature.
- Abstract(参考訳): DeepFakesの検出は、AIイメージジェネレータの普及により、顔操作された完全に合成されたコンテンツの作成が困難になるため、重要な研究領域となっている。
これらの課題に対処するために,従来の二分法を超越した,新鮮で統一的で高度に一般化可能なフレームワークであるTruthLensを提案する。
TruthLensは従来の手法とは異なり、MLLMグラウンドを実行する。
TruthLensはタスク駆動の表現統合戦略を用いて、多モーダルな大言語モデル(MLLM)から、視覚のみのモデルの明示的なクロスモーダル適応を通じて、地域固有の法医学的手がかりを統一する。
これにより、顔操作されたコンテンツと完全に合成されたコンテンツの両方に対するニュアンス付き、地域的推論が可能になり、「目/鼻/口は本物か偽か?」のようなきめ細かいクエリをサポートする。
さまざまなデータセットにわたる大規模な実験により、TrathLensは、法医学的解釈可能性と検出精度の両方において、新しいベンチマークを設定し、目に見える操作や目に見えない操作を一般化した。
TruthLensは、高レベルのシーン理解ときめ細かい領域の接地を統一することによって、透明なDeepFakeの法医学を提供し、文学における重要なギャップを埋める。
関連論文リスト
- FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - TruthLens:A Training-Free Paradigm for DeepFake Detection [4.64982780843177]
本稿では,視覚的質問応答(VQA)タスクとしてディープフェイク検出を再定義するトレーニングフリーフレームワークであるTruthLensを紹介する。
TruthLensは最先端の大規模視覚言語モデル(LVLM)を使用して視覚的アーティファクトを観察し記述する。
マルチモーダルアプローチを採用することで、TruthLensは視覚的および意味論的推論をシームレスに統合し、イメージをリアルまたはフェイクとして分類するだけでなく、解釈可能な説明を提供する。
論文 参考訳(メタデータ) (2025-03-19T15:41:32Z) - Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation [15.442558725312976]
本稿では,一般的な合成画像とDeepFake検出タスクの両方を対象とした,大規模マルチモーダルモデルであるFakeVLMを紹介する。
FakeVLMは、本物と偽のイメージを区別し、画像アーティファクトの明確な自然言語説明を提供する。
FakeClueは、7つのカテゴリにわたる10万以上の画像を含む包括的データセットで、自然言語のきめ細かいアーティファクトのヒントで注釈付けされている。
論文 参考訳(メタデータ) (2025-03-19T05:14:44Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - DiffusionFake: Enhancing Generalization in Deepfake Detection via Guided Stable Diffusion [94.46904504076124]
ディープフェイク技術は、顔交換を極めて現実的にし、偽造された顔コンテンツの使用に対する懸念を高めている。
既存の方法は、顔操作の多様な性質のため、目に見えない領域に一般化するのに苦労することが多い。
顔偽造者の生成過程を逆転させて検出モデルの一般化を促進する新しいフレームワークであるDiffusionFakeを紹介する。
論文 参考訳(メタデータ) (2024-10-06T06:22:43Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Real Face Foundation Representation Learning for Generalized Deepfake
Detection [74.4691295738097]
ディープフェイク技術の出現は、個人のプライバシーと公共の安全に脅威をもたらすため、社会的な問題となっている。
十分な偽の顔を集めることはほぼ不可能であり、既存の検出器があらゆる種類の操作に一般化することは困難である。
本稿では,大規模な実顔データセットから一般表現を学習することを目的としたリアルフェイスファウンデーション表現学習(RFFR)を提案する。
論文 参考訳(メタデータ) (2023-03-15T08:27:56Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。