Fugu-MT 論文翻訳(概要): LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

論文の概要: LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

arxiv url: http://arxiv.org/abs/2505.07734v1
Date: Mon, 12 May 2025 16:42:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.495234
Title: LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention
Title（参考訳）: LAMM-ViT:地域誘導注意の層認識によるAI顔検出
Authors: Jiangling Zhang, Weijie Zhu, Jirui Huang, Yaxiong Chen,
Abstract要約: 本稿では,顔偽造検出のための視覚変換器であるLayer-Aware Mask Modulation Vision Transformer (LAMM-ViT)を紹介する。 LAMM-ViTはリージョンガイド型マルチヘッドアテンション(RG-MHA)とレイヤ対応マスク変調(LAMM)を各レイヤに統合する。クロスモデル一般化テストでは、LAMM-ViT は優れた性能を示し、平均 ACC は94.09%、平均 AP は98.62% である。
参考スコア（独自算出の注目度）: 4.0810988694972385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting AI-synthetic faces presents a critical challenge: it is hard to capture consistent structural relationships between facial regions across diverse generation techniques. Current methods, which focus on specific artifacts rather than fundamental inconsistencies, often fail when confronted with novel generative models. To address this limitation, we introduce Layer-aware Mask Modulation Vision Transformer (LAMM-ViT), a Vision Transformer designed for robust facial forgery detection. This model integrates distinct Region-Guided Multi-Head Attention (RG-MHA) and Layer-aware Mask Modulation (LAMM) components within each layer. RG-MHA utilizes facial landmarks to create regional attention masks, guiding the model to scrutinize architectural inconsistencies across different facial areas. Crucially, the separate LAMM module dynamically generates layer-specific parameters, including mask weights and gating values, based on network context. These parameters then modulate the behavior of RG-MHA, enabling adaptive adjustment of regional focus across network depths. This architecture facilitates the capture of subtle, hierarchical forgery cues ubiquitous among diverse generation techniques, such as GANs and Diffusion Models. In cross-model generalization tests, LAMM-ViT demonstrates superior performance, achieving 94.09% mean ACC (a +5.45% improvement over SoTA) and 98.62% mean AP (a +3.09% improvement). These results demonstrate LAMM-ViT's exceptional ability to generalize and its potential for reliable deployment against evolving synthetic media threats.
Abstract（参考訳）: AI合成顔を検出することは重要な課題であり、多様な生成技術間での顔領域間の一貫した構造的関係を捉えることは困難である。基本的な矛盾ではなく特定の人工物に焦点を当てた現在の手法は、しばしば新しい生成モデルに直面すると失敗する。この制限に対処するために,顔の堅牢な偽造検出のために設計された視覚変換器であるLayer-Aware Mask Modulation Vision Transformer (LAMM-ViT)を導入する。このモデルは各層に異なる領域誘導型マルチヘッドアテンション (RG-MHA) とレイヤ認識型マスク変調 (LAMM) コンポーネントを統合する。 RG-MHAは、顔のランドマークを使用して、異なる顔領域にわたる建築上の不整合を精査するモデルを導き、地域の注目マスクを作成する。重要なことに、別々のLAMMモジュールは、ネットワークコンテキストに基づいてマスク重みやゲーティング値を含む層固有のパラメータを動的に生成する。これらのパラメータは、RG-MHAの挙動を変調し、ネットワーク深度にわたる局所的な焦点の適応的な調整を可能にする。このアーキテクチャは、GANや拡散モデルといった様々な世代技術の中で、微妙で階層的な偽造の手がかりを、至るところで捉えやすくする。クロスモデル一般化テストでは、LAMM-ViTは94.09%の平均ACC(SoTAよりも5.45%改善)、98.62%の平均AP(+3.09%改善)を達成し、優れた性能を示す。これらの結果は、LAMM-ViTが一般化する異常な能力と、進化する合成メディア脅威に対する信頼性の高い展開の可能性を示している。

関連論文リスト

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection [70.42796551833946]
テクスチャレベルのアーティファクトとセマンティックな特徴をマルチモーダルな言語モデル(MLLM)に組み込むことで、AIGI検出能力を向上することができる。本稿では,タスク認識型Optimal-Transport Fusionを統合した軽量フュージョンアダプタTranX-Adapterを提案する。いくつかの高度なMLLM上での標準AIGI検出ベンチマークの実験は、TranX-Adapterが一貫性と大幅な改善をもたらすことを示している。
論文参考訳（メタデータ） (2026-02-25T09:22:46Z)
Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks [3.4782736103257323]
本稿では,マルチスケール空間適応注意ネットワーク(MSAAN)と呼ばれる,軽量画像超解像(SR)ネットワークを提案する。提案手法のコアとなるのは,局所的な細部と長期のコンテキスト依存性を協調的にモデル化する,マルチスケール空間適応型注意モジュール(MSAA)である。
論文参考訳（メタデータ） (2026-02-22T07:47:39Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文参考訳（メタデータ） (2025-08-07T11:14:16Z)
NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning [1.7603474309877931]
NexViTADは、視覚基盤モデルに基づくクロスドメイン異常検出フレームワークである。産業的異常検出における領域シフト問題に、革新的な共有部分空間投影機構を通じて対処する。 AUCは97.5%、APは70.4%、PRは95.2%である。
論文参考訳（メタデータ） (2025-07-10T09:29:26Z)
Generalizable Multispectral Land Cover Classification via Frequency-Aware Mixture of Low-Rank Token Experts [22.75047167955269]
マルチスペクトル土地被覆分類(MLCC)の新しいアプローチであるLand-MoEを紹介する。 Land-MoEは、低ランクトークンエキスパート(MoLTE)と周波数認識フィルタ(FAF)の2つの重要なモジュールから構成される。
論文参考訳（メタデータ） (2025-05-20T08:52:28Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-01-10T00:20:29Z)
Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation [37.79819260918366]
継続的なテスト時間適応(CTTA)は、トレーニング済みのモデルを進化し続けるターゲットドメインに適応させることを目的としている。我々はCTTAタスクのアダプタとしてMixture-of-Activation-Sparsity-Experts (MoASE)の統合について検討する。
論文参考訳（メタデータ） (2024-05-26T08:51:39Z)
Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-02-23T01:34:00Z)
GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文参考訳（メタデータ） (2024-02-03T03:13:50Z)
Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文参考訳（メタデータ） (2022-11-10T18:59:43Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
Calibrated Hyperspectral Image Reconstruction via Graph-based Self-Tuning Network [40.71031760929464]
ハイパースペクトルイメージング(HSI)は、特に符号化スナップショット分光イメージング(CASSI)システムに基づく画像に対して、研究の注目を集めている。既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクが与える2次元圧縮計測に基づいて元の信号を取得するために、ペアデータで訓練される。このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。マスクの空間構造の変化に適応する不確実性を推論するグラフベース自己調整(GST)ネットワークを提案する。
論文参考訳（メタデータ） (2021-12-31T09:39:13Z)
Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。スペクトル間相互作用のモデル化は、HSI再構成に有用である。 Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-11-15T16:59:48Z)
Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文参考訳（メタデータ） (2020-10-12T13:26:30Z)
Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。 Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文参考訳（メタデータ） (2020-06-15T22:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。