Fugu-MT 論文翻訳(概要): UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization

論文の概要: UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization

arxiv url: http://arxiv.org/abs/2508.06101v1
Date: Fri, 08 Aug 2025 08:00:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-11 20:39:06.130027
Title: UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization
Title（参考訳）: UGD-IML: 制約付きおよび制約なし画像操作の局所化のための一元的拡散型フレームワーク
Authors: Yachun Mi, Xingyang He, Shixin Sun, Yu Li, Yanting Li, Zhixuan Li, Jian Jin, Chen Hui, Shaohui Liu,
Abstract要約: 拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。 UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、AIMとCIMLタスクのF1メトリックスで優れていることを示す。
参考スコア（独自算出の注目度）: 19.797719494981923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the digital age, advanced image editing tools pose a serious threat to the integrity of visual content, making image forgery detection and localization a key research focus. Most existing Image Manipulation Localization (IML) methods rely on discriminative learning and require large, high-quality annotated datasets. However, current datasets lack sufficient scale and diversity, limiting model performance in real-world scenarios. To overcome this, recent studies have explored Constrained IML (CIML), which generates pixel-level annotations through algorithmic supervision. However, existing CIML approaches often depend on complex multi-stage pipelines, making the annotation process inefficient. In this work, we propose a novel generative framework based on diffusion models, named UGD-IML, which for the first time unifies both IML and CIML tasks within a single framework. By learning the underlying data distribution, generative diffusion models inherently reduce the reliance on large-scale labeled datasets, allowing our approach to perform effectively even under limited data conditions. In addition, by leveraging a class embedding mechanism and a parameter-sharing design, our model seamlessly switches between IML and CIML modes without extra components or training overhead. Furthermore, the end-to-end design enables our model to avoid cumbersome steps in the data annotation process. Extensive experimental results on multiple datasets demonstrate that UGD-IML outperforms the SOTA methods by an average of 9.66 and 4.36 in terms of F1 metrics for IML and CIML tasks, respectively. Moreover, the proposed method also excels in uncertainty estimation, visualization and robustness.
Abstract（参考訳）: デジタル時代には、高度な画像編集ツールが視覚的コンテンツの完全性に深刻な脅威をもたらし、画像偽造検出とローカライゼーションが重要な研究対象となっている。既存のほとんどの画像操作ローカライゼーション(IML)手法は識別学習に依存しており、大きな高品質の注釈付きデータセットを必要とする。しかし、現在のデータセットには十分なスケールと多様性がなく、実際のシナリオでのモデルパフォーマンスが制限されている。これを解決するために、最近の研究では、アルゴリズムの監督を通じてピクセルレベルのアノテーションを生成するConstrained IML(CIML)を探索している。しかし、既存のCIMLアプローチは複雑なマルチステージパイプラインに依存しており、アノテーションプロセスは非効率である。本研究では,拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。基礎となるデータ分布を学習することにより、生成拡散モデルは本質的に大規模ラベル付きデータセットへの依存を減らし、限られたデータ条件下でも効果的に実行することが可能となる。さらに,クラス埋め込み機構とパラメータ共有設計を活用して,追加のコンポーネントやトレーニングオーバーヘッドを伴わずにIMLモードとCIMLモードをシームレスに切り替える。さらに、エンドツーエンドの設計により、データアノテーションプロセスの煩雑なステップを回避できます。複数のデータセットに対する大規模な実験結果から、UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、それぞれIMLとCIMLタスクのF1メトリクスの方が優れていることが示されている。さらに,提案手法は不確実性推定,可視化,ロバスト性にも優れる。

関連論文リスト

Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文参考訳（メタデータ） (2025-07-17T11:45:27Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文参考訳（メタデータ） (2024-12-09T17:11:50Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。