論文の概要: UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2508.06101v1
- Date: Fri, 08 Aug 2025 08:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.130027
- Title: UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization
- Title(参考訳): UGD-IML: 制約付きおよび制約なし画像操作の局所化のための一元的拡散型フレームワーク
- Authors: Yachun Mi, Xingyang He, Shixin Sun, Yu Li, Yanting Li, Zhixuan Li, Jian Jin, Chen Hui, Shaohui Liu,
- Abstract要約: 拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。
UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、AIMとCIMLタスクのF1メトリックスで優れていることを示す。
- 参考スコア(独自算出の注目度): 19.797719494981923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the digital age, advanced image editing tools pose a serious threat to the integrity of visual content, making image forgery detection and localization a key research focus. Most existing Image Manipulation Localization (IML) methods rely on discriminative learning and require large, high-quality annotated datasets. However, current datasets lack sufficient scale and diversity, limiting model performance in real-world scenarios. To overcome this, recent studies have explored Constrained IML (CIML), which generates pixel-level annotations through algorithmic supervision. However, existing CIML approaches often depend on complex multi-stage pipelines, making the annotation process inefficient. In this work, we propose a novel generative framework based on diffusion models, named UGD-IML, which for the first time unifies both IML and CIML tasks within a single framework. By learning the underlying data distribution, generative diffusion models inherently reduce the reliance on large-scale labeled datasets, allowing our approach to perform effectively even under limited data conditions. In addition, by leveraging a class embedding mechanism and a parameter-sharing design, our model seamlessly switches between IML and CIML modes without extra components or training overhead. Furthermore, the end-to-end design enables our model to avoid cumbersome steps in the data annotation process. Extensive experimental results on multiple datasets demonstrate that UGD-IML outperforms the SOTA methods by an average of 9.66 and 4.36 in terms of F1 metrics for IML and CIML tasks, respectively. Moreover, the proposed method also excels in uncertainty estimation, visualization and robustness.
- Abstract(参考訳): デジタル時代には、高度な画像編集ツールが視覚的コンテンツの完全性に深刻な脅威をもたらし、画像偽造検出とローカライゼーションが重要な研究対象となっている。
既存のほとんどの画像操作ローカライゼーション(IML)手法は識別学習に依存しており、大きな高品質の注釈付きデータセットを必要とする。
しかし、現在のデータセットには十分なスケールと多様性がなく、実際のシナリオでのモデルパフォーマンスが制限されている。
これを解決するために、最近の研究では、アルゴリズムの監督を通じてピクセルレベルのアノテーションを生成するConstrained IML(CIML)を探索している。
しかし、既存のCIMLアプローチは複雑なマルチステージパイプラインに依存しており、アノテーションプロセスは非効率である。
本研究では,拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。
基礎となるデータ分布を学習することにより、生成拡散モデルは本質的に大規模ラベル付きデータセットへの依存を減らし、限られたデータ条件下でも効果的に実行することが可能となる。
さらに,クラス埋め込み機構とパラメータ共有設計を活用して,追加のコンポーネントやトレーニングオーバーヘッドを伴わずにIMLモードとCIMLモードをシームレスに切り替える。
さらに、エンドツーエンドの設計により、データアノテーションプロセスの煩雑なステップを回避できます。
複数のデータセットに対する大規模な実験結果から、UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、それぞれIMLとCIMLタスクのF1メトリクスの方が優れていることが示されている。
さらに,提案手法は不確実性推定,可視化,ロバスト性にも優れる。
関連論文リスト
- From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations [14.0185129202898]
BoxPromptIMLは、アノテーションコストとローカライゼーションパフォーマンスのバランスをとる、新しい弱教師付きIMLフレームワークである。
ヒトの意識下記憶機構にインスパイアされた我々の特徴融合モジュールは、リアルタイムな観察手法を用いて、リコールされたパターンを積極的に文脈化するための二重誘導方式を採用している。
論文 参考訳(メタデータ) (2025-11-25T14:39:17Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline [5.740204096484276]
画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。
Foreseeはタイププライア駆動の戦略を採用し、コピー-ムーブ操作を処理するためにFlexible Feature Detectorモジュールを使用している。
提案手法は,より優れた局所化精度を実現し,より包括的なテキスト説明を提供する。
論文 参考訳(メタデータ) (2025-11-17T14:49:57Z) - Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification [18.928408687991368]
大規模言語モデル(LLM)は、計算病理学において有望な方向性として現れつつある。
既存の視覚言語によるMIL(Multi-Instance Learning)手法では、一方向指導を用いることが多い。
本稿では,双方向インタラクションを促進するマルチモーダルプロトタイプベースのマルチインスタンス学習を提案する。
論文 参考訳(メタデータ) (2025-11-11T07:46:38Z) - EfficientIML: Efficient High-Resolution Image Manipulation Localization [38.432078329653926]
1200以上の拡散生成操作を意味的に抽出したマスクを用いた新しい高分解能SIFデータセットを提案する。
本稿では,軽量で3段階のRWKVバックボーンを有する新しいEfficientIMLモデルを提案する。
提案手法は, ローカライズ性能, FLOP, 推論速度において, ViT ベースや他の SOTA 軽量ベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-09-10T13:32:02Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。