Fugu-MT 論文翻訳(概要): Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection

論文の概要: Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection

arxiv url: http://arxiv.org/abs/2411.15633v2
Date: Fri, 31 Jan 2025 17:31:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 14:50:17.537369
Title: Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection
Title（参考訳）: 一般化可能なAI生成画像検出のための直交部分空間分解
Authors: Zhiyuan Yan, Jiangming Wang, Peng Jin, Ke-Yue Zhang, Chengchun Liu, Shen Chen, Taiping Yao, Shouhong Ding, Baoyuan Wu, Li Yuan,
Abstract要約: 航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。主成分を凍結し,残った成分のみを適応させることで,偽造関係のパターンを学習しながら,事前学習した知識を保存できる。
参考スコア（独自算出の注目度）: 58.87142367781417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI-generated images (AIGIs), such as natural or face images, have become increasingly realistic and indistinguishable, making their detection a critical and pressing challenge. In this paper, we start from a new perspective to excavate the reason behind the failure generalization in AIGI detection, named the \textit{asymmetry phenomenon}, where a naively trained detector tends to favor overfitting to the limited and monotonous fake patterns, causing the feature space to become highly constrained and low-ranked, which is proved seriously limiting the expressivity and generalization. One potential remedy is incorporating the pre-trained knowledge within the vision foundation models (higher-ranked) to expand the feature space, alleviating the model's overfitting to fake. To this end, we employ Singular Value Decomposition (SVD) to decompose the original feature space into two orthogonal subspaces. By freezing the principal components and adapting only the remained components, we preserve the pre-trained knowledge while learning forgery-related patterns. Compared to existing full-parameters and LoRA-based tuning methods, we explicitly ensure orthogonality enabling the higher rank of the whole feature space, effectively minimizing overfitting and enhancing generalization. Extensive experiments with our deep analysis on both deepfake and synthetic image detection benchmarks demonstrate superior generalization performance in detection.
Abstract（参考訳）: AI生成画像(AIGI)、例えば自然画像や顔画像は、ますます現実的で区別がつかないものになり、その検出は批判的かつ圧迫的な課題となっている。本稿では,AIGI検出におけるフェール一般化の背景となる新たな視点から,限定的かつ単調な偽パターンに過度に適合する傾向があり,特徴空間が高度に制約され,低ランク化され,表現性や一般化が著しく制限されることが証明された,‘textit{asymmetric phenomenon’ という,AIGI検出における障害一般化の背景を探索することから始める。潜在的な治療法の1つは、ビジョンファウンデーションモデル(より高いランクの)に事前訓練された知識を組み込んで特徴空間を拡大し、モデルの過度な適合を偽物にすることである。この目的のために、元の特徴空間を2つの直交部分空間に分解するために Singular Value Decomposition (SVD) を用いる。主成分を凍結し,残った成分のみを適応させることで,偽造関係のパターンを学習しながら,事前学習した知識を保存できる。既存の全パラメータと LoRA ベースのチューニング手法と比較して,特徴空間全体の高階化を可能にする直交性を明確に確保し,オーバーフィッティングの最小化と一般化の強化を効果的に行う。ディープフェイクおよび合成画像検出ベンチマークの深部解析による広範囲な実験により,検出における一般化性能が向上した。

関連論文リスト

Detecting AI-Generated Images via Distributional Deviations from Real Images [6.615773227400183]
ファインチューニング中に生成モデル固有のパターンを含むテクスチャ領域をマスクするテクスチャ・アウェア・マスキング(TAM)機構を導入する。我々の手法は最小限の画像しか調整されず、既存の手法よりも大幅に優れており、2つのデータセットの平均精度は98.2%と94.6%に達する。
論文参考訳（メタデータ） (2026-01-07T05:00:13Z)
OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文参考訳（メタデータ） (2025-09-27T11:19:32Z)
Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。 textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文参考訳（メタデータ） (2025-04-16T09:57:23Z)
HRR: Hierarchical Retrospection Refinement for Generated Image Detection [16.958383381415445]
階層的レトロスペクティブ再定義(HRR)と呼ばれる拡散モデルに基づく生成画像検出フレームワークを提案する。 HRRフレームワークは、生成した画像検出タスクにおいて、最先端のメソッドよりも優れたパフォーマンスを継続的に提供する。
論文参考訳（メタデータ） (2025-02-25T05:13:44Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文参考訳（メタデータ） (2024-09-03T07:32:46Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
ED$^4$: Explicit Data-level Debiasing for Deepfake Detection [24.695989108814018]
限られたデータから固有のバイアスを学習することは、一般化可能なディープフェイク検出の失敗の主な原因と考えられている。データレベルで上記のバイアスに明示的に対処するためのシンプルで効果的な戦略であるED$4$を提示します。我々は,既存のディープフェイク検出手法よりも有効性と優位性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-08-13T10:05:20Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-18T09:52:14Z)
Weakly Supervised Face and Whole Body Recognition in Turbulent Environments [2.2263723609685773]
本稿では, 領域表現を生成し, 乱流像と原始像を共通部分空間に整列する, 弱教師付きフレームワークを提案する。また、乱流画像で観測される幾何歪みを予測する新しい傾きマップ推定器も導入した。提案手法では, 乱流のない画像や地対画像の合成は必要とせず, 注釈付きサンプルを著しく少なくする。
論文参考訳（メタデータ） (2023-08-22T19:58:02Z)
GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。 textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文参考訳（メタデータ） (2023-08-09T04:34:21Z)
One-Step Detection Paradigm for Hyperspectral Anomaly Detection via Spectral Deviation Relationship Learning [17.590080772567678]
ハイパースペクトル異常検出は、周囲からスペクトルを逸脱するターゲットを特定することを含む。現在のディープ検出モデルは、バックグラウンド再構築や生成などのプロキシタスクの完了に最適化されている。本稿では,異常検出タスクに対して直接最適化された教師なし転送直接検出モデルを提案する。
論文参考訳（メタデータ） (2023-03-22T06:41:09Z)
When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文参考訳（メタデータ） (2022-12-01T20:15:15Z)
Relating Regularization and Generalization through the Intrinsic Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文参考訳（メタデータ） (2022-11-23T19:00:00Z)
SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。 SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文参考訳（メタデータ） (2022-11-21T09:38:30Z)
Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2022-06-23T14:16:30Z)
Autoencoder for Synthetic to Real Generalization: From Simple to More Complex Scenes [13.618797548020462]
我々は,自己エンコーダアーキテクチャに注目し,シミュレーション画像と実画像の領域シフトに起因する帰納的バイアスに不変な潜在空間表現の学習を目指す。本稿では,視覚的複雑性が増大する実際のデータセットに対して,一般化可能性を高め,セマンティクスの保存を改善するためのアプローチを提案する。
論文参考訳（メタデータ） (2022-04-01T12:23:41Z)
CutPaste: Self-Supervised Learning for Anomaly Detection and Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文参考訳（メタデータ） (2021-04-08T19:04:55Z)
Hybrid-Attention Guided Network with Multiple Resolution Features for Person Re-Identification [30.285126447140254]
本稿では,ハイレベルな特徴を学習する際の情報損失を低減するために,ハイレベルな埋め込みと低レベルな埋め込みを融合した新しい人物再IDモデルを提案する。また,対象物に関するより識別的な特徴を抽出することを目的とした,空間的およびチャネル的注意機構をモデルに導入する。
論文参考訳（メタデータ） (2020-09-16T08:12:42Z)
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-08T16:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。