Fugu-MT 論文翻訳(概要): HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs

論文の概要: HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs

arxiv url: http://arxiv.org/abs/2410.06044v1
Date: Tue, 8 Oct 2024 13:43:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 11:20:35.726361
Title: HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs
Title（参考訳）: HyperDet: ハイパーロラの混合生成とマージによる合成画像の一般化可能な検出
Authors: Huangsen Cao, Yongwei Wang, Yinfeng Liu, Sixian Zheng, Kangtao Lv, Zhimeng Zhang, Bo Zhang, Xin Ding, Fei Wu,
Abstract要約: 我々はHyperDetと呼ばれる新しい、一般化可能な検出フレームワークを紹介した。本研究では,画素とセマンティックアーティファクトを効果的にバランスさせる目的関数を提案する。我々の研究は、事前訓練された大きな視覚モデルに基づいて、一般化可能なドメイン固有の偽画像検出器を確立する新しい方法である。
参考スコア（独自算出の注目度）: 17.88153857572688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of diverse generative vision models has recently enabled the synthesis of visually realistic images, underscoring the critical need for effectively detecting these generated images from real photos. Despite advances in this field, existing detection approaches often struggle to accurately identify synthesized images generated by different generative models. In this work, we introduce a novel and generalizable detection framework termed HyperDet, which innovatively captures and integrates shared knowledge from a collection of functionally distinct and lightweight expert detectors. HyperDet leverages a large pretrained vision model to extract general detection features while simultaneously capturing and enhancing task-specific features. To achieve this, HyperDet first groups SRM filters into five distinct groups to efficiently capture varying levels of pixel artifacts based on their different functionality and complexity. Then, HyperDet utilizes a hypernetwork to generate LoRA model weights with distinct embedding parameters. Finally, we merge the LoRA networks to form an efficient model ensemble. Also, we propose a novel objective function that balances the pixel and semantic artifacts effectively. Extensive experiments on the UnivFD and Fake2M datasets demonstrate the effectiveness of our approach, achieving state-of-the-art performance. Moreover, our work paves a new way to establish generalizable domain-specific fake image detectors based on pretrained large vision models.
Abstract（参考訳）: 多様な生成視覚モデルの出現により、視覚的にリアルな画像の合成が可能となり、これらの生成画像を実画像から効果的に検出する必要性が強調された。この分野での進歩にもかかわらず、既存の検出手法は、異なる生成モデルによって生成された合成画像の正確な識別に苦慮することが多い。本研究では,機能的に異なる軽量な専門家検出器のコレクションから共有知識を革新的にキャプチャし,統合するHyperDetという,新規で一般化可能な検出フレームワークを紹介する。 HyperDetは、大規模な事前訓練された視覚モデルを利用して、タスク固有の機能を同時にキャプチャし、拡張しながら、一般的な検出機能を抽出する。これを実現するために、HyperDetはまずSRMフィルタを5つの異なるグループに分類し、異なる機能と複雑さに基づいて、さまざまなピクセルアーティファクトを効率的にキャプチャする。次に、HyperDetはハイパーネットワークを使用して、異なる埋め込みパラメータを持つLoRAモデルウェイトを生成する。最後に、LoRAネットワークをマージして効率的なモデルアンサンブルを形成する。また,画素とセマンティックアーティファクトを効果的にバランスさせる目的関数を提案する。 UnivFDとFake2Mデータセットの大規模な実験により、我々のアプローチの有効性が実証され、最先端のパフォーマンスが達成された。さらに,本研究は,事前学習された大規模視覚モデルに基づいて,一般化可能な領域固有の偽画像検出器を確立するための新しい方法である。

関連論文リスト

DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models [43.86847047796023]
現在のディープフェイク検出方法は、生成モデルやコンテンツの多様性に制限のあるデータセットに依存することが多い。 textbfDFBenchは大規模なDeepFakeベンチマークで、リアル、AI編集、AI生成コンテンツにわたって54万のイメージが提供されている。我々は,複数のLMMから合成された確率戦略を利用して,ディープフェイク検出のための混合エージェントであるtextbfMoA-DFを提案する。
論文参考訳（メタデータ） (2025-06-03T15:45:41Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文参考訳（メタデータ） (2025-03-24T01:59:29Z)
HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-01-10T00:20:29Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。 TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文参考訳（メタデータ） (2024-11-17T09:39:50Z)
Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending [54.26862913139299]
我々は、ウォーターマークインフォームドブレンディング(TEAWIB)による潜伏拡散モデルに対する効果的なユーザ属性に向けた新しいフレームワークを提案する。 TEAWIBは、ユーザ固有の透かしを生成モデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。 TEAWIBの有効性を検証し、知覚的品質と帰属精度で最先端の性能を示す実験を行った。
論文参考訳（メタデータ） (2024-09-17T07:52:09Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文参考訳（メタデータ） (2024-04-19T14:30:41Z)
GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文参考訳（メタデータ） (2024-02-03T03:13:50Z)
A Dual Attentive Generative Adversarial Network for Remote Sensing Image Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。 DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文参考訳（メタデータ） (2023-10-03T08:26:27Z)
GH-Feat: Learning Versatile Generative Hierarchical Features from GANs [61.208757845344074]
画像合成から学習した生成機能は、幅広いコンピュータビジョンタスクを解く上で大きな可能性を秘めていることを示す。まず,事前学習したStyleGANジェネレータを学習損失関数として考慮し,エンコーダを訓練する。 GH-Feat(Generative Hierarchical Features)と呼ばれるエンコーダが生成する視覚的特徴は、階層的なGAN表現と高度に一致している。
論文参考訳（メタデータ） (2023-01-12T21:59:46Z)
Fusing Global and Local Features for Generalized AI-Synthesized Image Detection [31.35052580048599]
画像全体からのグローバル空間情報と,新しいパッチ選択モジュールによって選択されたパッチからの局所的な情報的特徴を結合する2分岐モデルを設計する。さまざまなオブジェクトと解像度を持つ19のモデルで合成された非常に多様なデータセットを収集し、モデルを評価する。
論文参考訳（メタデータ） (2022-03-26T01:55:37Z)
Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文参考訳（メタデータ） (2021-05-29T21:22:24Z)
Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文参考訳（メタデータ） (2020-07-20T18:04:14Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。