論文の概要: DINOv3 Beats Specialized Detectors: A Simple Foundation Model Baseline for Image Forensics
- arxiv url: http://arxiv.org/abs/2604.16083v1
- Date: Fri, 17 Apr 2026 14:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.947328
- Title: DINOv3 Beats Specialized Detectors: A Simple Foundation Model Baseline for Image Forensics
- Title(参考訳): DINOv3、画像鑑定のためのシンプルな基礎モデルベースライン
- Authors: Jieming Yu, Qiuxiao Feng, Zhuohan Wang, Xiaochen Ma,
- Abstract要約: 本稿では,LoRA適応と軽量畳み込みデコーダを用いたDINOv3に基づく強力なベースラインを提案する。
CAT-Netプロトコルの下では,従来よりも平均画素レベルF1が17.0ポイント向上している。
LoRAは、すべてのバックボーンスケールで完全な微調整を一貫して上回る。
- 参考スコア(独自算出の注目度): 1.065162575297431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of deep generative models, realistic fake images have become increasingly accessible, yet existing localization methods rely on complex designs and still struggle to generalize across manipulation types and imaging conditions. We present a simple but strong baseline based on DINOv3 with LoRA adaptation and a lightweight convolutional decoder. Under the CAT-Net protocol, our best model improves average pixel-level F1 by 17.0 points over the previous state of the art on four standard benchmarks using only 9.1\,M trainable parameters on top of a frozen ViT-L backbone, and even our smallest variant surpasses all prior specialized methods. LoRA consistently outperforms full fine-tuning across all backbone scales. Under the data-scarce MVSS-Net protocol, LoRA reaches an average F1 of 0.774 versus 0.530 for the strongest prior method, while full fine-tuning becomes highly unstable, suggesting that pre-trained representations encode forensic information that is better preserved than overwritten. The baseline also exhibits strong robustness to Gaussian noise, JPEG re-compression, and Gaussian blur. We hope this work can serve as a reliable baseline for the research community and a practical starting point for future image-forensic applications. Code is available at https://github.com/Irennnne/DINOv3-IML.
- Abstract(参考訳): 深層生成モデルの急速な進歩により、現実的な偽画像はますますアクセスしやすくなっているが、既存のローカライゼーション手法は複雑な設計に依存しており、操作タイプや撮像条件をまたいだ一般化に苦慮している。
本稿では,LoRA適応と軽量畳み込みデコーダを備えたDINOv3に基づく,単純だが強力なベースラインを提案する。
CAT-Netプロトコルの下では、凍結したViT-Lバックボーン上に9.1\,Mのトレーニング可能なパラメータしか使用せず、これまでの4つの標準ベンチマークでは、平均ピクセルレベルF1を17.0ポイント向上させています。
LoRAは、すべてのバックボーンスケールで完全な微調整を一貫して上回る。
データスカースMVSS-Netプロトコルでは、最強の手法では平均F1が0.774対0.530に達し、フル微調整は非常に不安定になり、事前訓練された表現は上書きよりも保存しやすい法医学情報をエンコードしている。
ベースラインはまた、ガウスのノイズ、JPEGの再圧縮、ガウスのぼかしに対して強い堅牢性を示す。
我々は,この研究が研究コミュニティの信頼性の高いベースラインとなり,将来的な画像法医学的応用の出発点となることを願っている。
コードはhttps://github.com/Irennnne/DINOv3-IMLで入手できる。
関連論文リスト
- ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文 参考訳(メタデータ) (2024-11-24T11:20:48Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Hardware Resilience Properties of Text-Guided Image Classifiers [15.787551066303804]
本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。
当社のアプローチは,ハードウェアの信頼性の平均的な向上を目覚ましい5.5倍に達成しています。
論文 参考訳(メタデータ) (2023-11-23T15:38:13Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文 参考訳(メタデータ) (2022-10-10T12:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。