論文の概要: Trinity Detector:text-assisted and attention mechanisms based spectral fusion for diffusion generation image detection
- arxiv url: http://arxiv.org/abs/2404.17254v1
- Date: Fri, 26 Apr 2024 08:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:34:31.380254
- Title: Trinity Detector:text-assisted and attention mechanisms based spectral fusion for diffusion generation image detection
- Title(参考訳): トリニティ検出器:拡散生成画像検出のためのテキスト支援・注意機構に基づくスペクトル融合
- Authors: Jiawei Song, Dengpan Ye, Yunming Zhang,
- Abstract要約: Trinity Detectorは、CLIPエンコーダを通じて粗粒度のテキスト機能を組み込んで、ピクセル領域の細粒度のアーティファクトとコヒーレントに統合して、包括的なマルチモーダル検出を行う。
当社のパフォーマンスは、すべてのデータセットで競争力があり、拡散データセットの転送性は最大17.6%向上しています。
- 参考スコア(独自算出の注目度): 3.8473504915778745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence Generated Content (AIGC) techniques, represented by text-to-image generation, have led to a malicious use of deep forgeries, raising concerns about the trustworthiness of multimedia content. Adapting traditional forgery detection methods to diffusion models proves challenging. Thus, this paper proposes a forgery detection method explicitly designed for diffusion models called Trinity Detector. Trinity Detector incorporates coarse-grained text features through a CLIP encoder, coherently integrating them with fine-grained artifacts in the pixel domain for comprehensive multimodal detection. To heighten sensitivity to diffusion-generated image features, a Multi-spectral Channel Attention Fusion Unit (MCAF) is designed, extracting spectral inconsistencies through adaptive fusion of diverse frequency bands and further integrating spatial co-occurrence of the two modalities. Extensive experimentation validates that our Trinity Detector method outperforms several state-of-the-art methods, our performance is competitive across all datasets and up to 17.6\% improvement in transferability in the diffusion datasets.
- Abstract(参考訳): AIGC(Artificial Intelligence Generated Content)技術は、テキスト・ツー・イメージ・ジェネレーションによって表現されている。
従来の偽造検出手法を拡散モデルに適用することは困難である。
そこで本論文では,Trinity Detectorと呼ばれる拡散モデルのために設計された偽造検出手法を提案する。
Trinity Detectorは、CLIPエンコーダを通じて粗粒度のテキスト機能を組み込んで、ピクセル領域の細粒度のアーティファクトとコヒーレントに統合して、包括的なマルチモーダル検出を行う。
拡散生成画像の特徴に対する感度を高めるために、多スペクトルチャネル注意融合ユニット(MCAF)が設計され、様々な周波数帯域の適応融合を通じてスペクトルの不整合を抽出し、さらに2つのモードの空間的共起を統合する。
大規模な実験により、我々のトリニティ検出器法はいくつかの最先端手法よりも優れており、我々の性能は全データセットで競争力があり、拡散データセットにおける転送性は最大17.6%向上している。
関連論文リスト
- Beyond the Visible: Jointly Attending to Spectral and Spatial Dimensions with HSI-Diffusion for the FINCH Spacecraft [2.5057561650768814]
FINCHミッションは、農地の作物の残留物を監視することを目的としている。
ハイパースペクトルイメージングは、スペクトル情報と空間情報の両方をキャプチャする。
ランダムノイズ、ストライプノイズ、デッドピクセルなど、様々な種類のノイズが生じる傾向がある。
論文 参考訳(メタデータ) (2024-06-15T19:34:18Z) - DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - Diffusion Facial Forgery Detection [56.69763252655695]
本稿では,顔に焦点をあてた拡散生成画像を対象とした包括的データセットであるDiFFを紹介する。
人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。
その結果、人間の観察者と自動検出者の2値検出精度は30%以下であることが判明した。
論文 参考訳(メタデータ) (2024-01-29T03:20:19Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - DiffUCD:Unsupervised Hyperspectral Image Change Detection with Semantic
Correlation Diffusion Model [46.68717345017946]
ハイパースペクトル画像変化検出(HSI-CD)はリモートセンシングにおいて重要な研究領域となっている。
意味相関拡散モデル(DiffUCD)を用いた新しい教師なしHSI-CDを提案する。
提案手法は,多数のサンプルを必要とする完全教師付き手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-05-21T09:21:41Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Unsupervised Change Detection in Hyperspectral Images using Feature
Fusion Deep Convolutional Autoencoders [15.978029004247617]
本研究の目的は,機能融合深部畳み込みオートエンコーダを用いた特徴抽出システムの構築である。
提案手法は,全データセットの教師なし変更検出において,工法の状態よりも明らかに優れていた。
論文 参考訳(メタデータ) (2021-09-10T16:52:31Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。