論文の概要: DinoLizer: Learning from the Best for Generative Inpainting Localization
- arxiv url: http://arxiv.org/abs/2511.20722v1
- Date: Tue, 25 Nov 2025 08:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.790804
- Title: DinoLizer: Learning from the Best for Generative Inpainting Localization
- Title(参考訳): DinoLizer: ローカライズ生成のためのベストから学ぶ
- Authors: Minh Thong Doi, Jan Butora, Vincent Itier, Jérémie Boulanger, Patrick Bas,
- Abstract要約: 本稿では,DINOv2をベースとしたDinoLizerについて紹介する。
本手法は,B-Freeデータセット上で合成画像を検出するために事前訓練したDINOv2モデルに基づいて構築する。
DinoLizerは次の最良のモデルよりも12%高いインターセクション・オーバー・ユニオン(IoU)を達成する。
- 参考スコア(独自算出の注目度): 11.535245730074285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DinoLizer, a DINOv2-based model for localizing manipulated regions in generative inpainting. Our method builds on a DINOv2 model pretrained to detect synthetic images on the B-Free dataset. We add a linear classification head on top of the Vision Transformer's patch embeddings to predict manipulations at a $14\times 14$ patch resolution. The head is trained to focus on semantically altered regions, treating non-semantic edits as part of the original content. Because the ViT accepts only fixed-size inputs, we use a sliding-window strategy to aggregate predictions over larger images; the resulting heatmaps are post-processed to refine the estimated binary manipulation masks. Empirical results show that DinoLizer surpasses state-of-the-art local manipulation detectors on a range of inpainting datasets derived from different generative models. It remains robust to common post-processing operations such as resizing, noise addition, and JPEG (double) compression. On average, DinoLizer achieves a 12\% higher Intersection-over-Union (IoU) than the next best model, with even greater gains after post-processing. Our experiments with off-the-shelf DINOv2 demonstrate the strong representational power of Vision Transformers for this task. Finally, extensive ablation studies comparing DINOv2 and its successor, DINOv3, in deepfake localization confirm DinoLizer's superiority. The code will be publicly available upon acceptance of the paper.
- Abstract(参考訳): 本稿では,DINOv2をベースとしたDinoLizerについて紹介する。
本手法は,B-Freeデータセット上で合成画像を検出するために事前訓練したDINOv2モデルに基づいて構築する。
ビジョントランスフォーマーのパッチ埋め込みの上に線形分類ヘッドを追加し、14時間14$のパッチ解決で操作を予測します。
頭は意味的に変化した領域に集中するように訓練され、元のコンテンツの一部として非意味的な編集を扱う。
ViTは固定サイズの入力のみを受け入れるため、スライディングウィンドウ戦略を用いて大きな画像上の予測を集約し、その結果のヒートマップを後処理し、推定されたバイナリ操作マスクを改良する。
実験結果から、DinoLizerは、異なる生成モデルから派生した様々な着色データセットにおいて、最先端の局所的操作検出器を超越していることが判明した。
再サイズ、ノイズの追加、JPEG(double)圧縮といった一般的な後処理操作に対して、依然として堅牢である。
平均すると、DinoLizerは次の最良のモデルよりも12\%高いインターセクション・オーバー・ユニオン(IoU)を達成する。
市販のDINOv2を用いた実験では,この課題に対する視覚変換器の強い表現力を示す。
最後に、ディープフェイクにおけるDINOv2とその後継であるDINOv3との比較研究により、ダイノライザーの優位性が確認された。
コードは、論文の受理時に公開される。
関連論文リスト
- From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition [4.540127373592404]
視覚的位置認識(VPR)は、ロボット工学と自律システムにとって大きな課題である。
本稿では,ScisVPRと呼ばれるVPRのための安定なクロスイメージ相関強化モデルを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:05:30Z) - IterInv: Iterative Inversion for Pixel-Level T2I Models [16.230193725587807]
DDIMインバージョンは、潜在拡散モデル(LDM)に根ざした一般的なプラクティスである
遅延空間で動作する大規模な事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階により詳細が失われる。
我々は,このカテゴリのT2Iモデルのイテレーティブ・インバージョン(IterInv)技術を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
論文 参考訳(メタデータ) (2023-10-30T13:47:46Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - N2V2 -- Fixing Noise2Void Checkerboard Artifacts with Modified Sampling
Strategies and a Tweaked Network Architecture [66.03918859810022]
我々は,バニラN2V装置に2つの改良を加えて,不要なアーティファクトを大幅に削減する。
我々は、顕微鏡および自然画像データに基づいて、その修正を検証した。
論文 参考訳(メタデータ) (2022-11-15T21:12:09Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。