Fugu-MT 論文翻訳(概要): Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection

論文の概要: Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection

arxiv url: http://arxiv.org/abs/2411.15633v1
Date: Sat, 23 Nov 2024 19:10:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.499461
Title: Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection
Title（参考訳）: 汎用AI生成画像検出のための高能率直交モデリング
Authors: Zhiyuan Yan, Jiangming Wang, Zhendong Wang, Peng Jin, Ke-Yue Zhang, Shen Chen, Taiping Yao, Shouhong Ding, Baoyuan Wu, Li Yuan,
Abstract要約: 既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
参考スコア（独自算出の注目度）: 66.16595174895802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing AI-generated image (AIGI) detection methods often suffer from limited generalization performance. In this paper, we identify a crucial yet previously overlooked asymmetry phenomenon in AIGI detection: during training, models tend to quickly overfit to specific fake patterns in the training set, while other information is not adequately captured, leading to poor generalization when faced with new fake methods. A key insight is to incorporate the rich semantic knowledge embedded within large-scale vision foundation models (VFMs) to expand the previous discriminative space (based on forgery patterns only), such that the discrimination is decided by both forgery and semantic cues, thereby reducing the overfitting to specific forgery patterns. A straightforward solution is to fully fine-tune VFMs, but it risks distorting the well-learned semantic knowledge, pushing the model back toward overfitting. To this end, we design a novel approach called Effort: Efficient orthogonal modeling for generalizable AIGI detection. Specifically, we employ Singular Value Decomposition (SVD) to construct the orthogonal semantic and forgery subspaces. By freezing the principal components and adapting the residual components ($\sim$0.19M parameters), we preserve the original semantic subspace and use its orthogonal subspace for learning forgeries. Extensive experiments on AIGI detection benchmarks demonstrate the superior effectiveness of our approach.
Abstract（参考訳）: 既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を特定する。トレーニング中、モデルはトレーニングセット内の特定のフェイクパターンに迅速に適合する傾向にあり、他の情報は適切にキャプチャされないため、新しいフェイクメソッドに直面すると一般化が低下する。重要な洞察は、大規模な視覚基盤モデル(VFM)に埋め込まれた豊富な意味知識を組み込んで、(偽造パターンのみに基づく)以前の識別空間を拡張することである。簡単な解決策は、VFMを完全に微調整することだが、十分に学習されたセマンティック知識を歪め、モデルを過度に適合させるリスクがある。そこで我々は,汎用AIGI検出のための効率的な直交モデリング手法であるEffortを考案した。具体的には,Singular Value Decomposition (SVD) を用いて直交意味空間とフォージェリー部分空間を構築する。主成分を凍結し、残留成分($\sim$0.19M)を適応させることで、元の意味的部分空間を保存し、その直交部分空間をフォージェリーの学習に使用する。 AIGI検出ベンチマークの大規模な実験は、我々のアプローチの優れた効果を示している。

関連論文リスト

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。 textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文参考訳（メタデータ） (2025-04-16T09:57:23Z)
HRR: Hierarchical Retrospection Refinement for Generated Image Detection [16.958383381415445]
階層的レトロスペクティブ再定義(HRR)と呼ばれる拡散モデルに基づく生成画像検出フレームワークを提案する。 HRRフレームワークは、生成した画像検出タスクにおいて、最先端のメソッドよりも優れたパフォーマンスを継続的に提供する。
論文参考訳（メタデータ） (2025-02-25T05:13:44Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文参考訳（メタデータ） (2024-09-03T07:32:46Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
ED$^4$: Explicit Data-level Debiasing for Deepfake Detection [24.695989108814018]
限られたデータから固有のバイアスを学習することは、一般化可能なディープフェイク検出の失敗の主な原因と考えられている。データレベルで上記のバイアスに明示的に対処するためのシンプルで効果的な戦略であるED$4$を提示します。我々は,既存のディープフェイク検出手法よりも有効性と優位性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-08-13T10:05:20Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-18T09:52:14Z)
Weakly Supervised Face and Whole Body Recognition in Turbulent Environments [2.2263723609685773]
本稿では, 領域表現を生成し, 乱流像と原始像を共通部分空間に整列する, 弱教師付きフレームワークを提案する。また、乱流画像で観測される幾何歪みを予測する新しい傾きマップ推定器も導入した。提案手法では, 乱流のない画像や地対画像の合成は必要とせず, 注釈付きサンプルを著しく少なくする。
論文参考訳（メタデータ） (2023-08-22T19:58:02Z)
GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。 textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文参考訳（メタデータ） (2023-08-09T04:34:21Z)
One-Step Detection Paradigm for Hyperspectral Anomaly Detection via Spectral Deviation Relationship Learning [17.590080772567678]
ハイパースペクトル異常検出は、周囲からスペクトルを逸脱するターゲットを特定することを含む。現在のディープ検出モデルは、バックグラウンド再構築や生成などのプロキシタスクの完了に最適化されている。本稿では,異常検出タスクに対して直接最適化された教師なし転送直接検出モデルを提案する。
論文参考訳（メタデータ） (2023-03-22T06:41:09Z)
When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文参考訳（メタデータ） (2022-12-01T20:15:15Z)
Relating Regularization and Generalization through the Intrinsic Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文参考訳（メタデータ） (2022-11-23T19:00:00Z)
SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。 SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文参考訳（メタデータ） (2022-11-21T09:38:30Z)
Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2022-06-23T14:16:30Z)
Autoencoder for Synthetic to Real Generalization: From Simple to More Complex Scenes [13.618797548020462]
我々は,自己エンコーダアーキテクチャに注目し,シミュレーション画像と実画像の領域シフトに起因する帰納的バイアスに不変な潜在空間表現の学習を目指す。本稿では,視覚的複雑性が増大する実際のデータセットに対して,一般化可能性を高め,セマンティクスの保存を改善するためのアプローチを提案する。
論文参考訳（メタデータ） (2022-04-01T12:23:41Z)
CutPaste: Self-Supervised Learning for Anomaly Detection and Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文参考訳（メタデータ） (2021-04-08T19:04:55Z)
Hybrid-Attention Guided Network with Multiple Resolution Features for Person Re-Identification [30.285126447140254]
本稿では,ハイレベルな特徴を学習する際の情報損失を低減するために,ハイレベルな埋め込みと低レベルな埋め込みを融合した新しい人物再IDモデルを提案する。また,対象物に関するより識別的な特徴を抽出することを目的とした,空間的およびチャネル的注意機構をモデルに導入する。
論文参考訳（メタデータ） (2020-09-16T08:12:42Z)
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-08T16:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。