論文の概要: From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations
- arxiv url: http://arxiv.org/abs/2511.20359v1
- Date: Tue, 25 Nov 2025 14:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.51122
- Title: From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations
- Title(参考訳): パッシブ認識からアクティブメモリへ:粗粒アノテーションによる画像操作位置決めフレームワーク
- Authors: Zhiqing Guo, Dongdong Xi, Songlin Li, Gaobo Yang,
- Abstract要約: BoxPromptIMLは、アノテーションコストとローカライゼーションパフォーマンスのバランスをとる、新しい弱教師付きIMLフレームワークである。
ヒトの意識下記憶機構にインスパイアされた我々の特徴融合モジュールは、リアルタイムな観察手法を用いて、リコールされたパターンを積極的に文脈化するための二重誘導方式を採用している。
- 参考スコア(独自算出の注目度): 14.0185129202898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulation localization (IML) faces a fundamental trade-off between minimizing annotation cost and achieving fine-grained localization accuracy. Existing fully-supervised IML methods depend heavily on dense pixel-level mask annotations, which limits scalability to large datasets or real-world deployment.In contrast, the majority of existing weakly-supervised IML approaches are based on image-level labels, which greatly reduce annotation effort but typically lack precise spatial localization. To address this dilemma, we propose BoxPromptIML, a novel weakly-supervised IML framework that effectively balances annotation cost and localization performance. Specifically, we propose a coarse region annotation strategy, which can generate relatively accurate manipulation masks at lower cost. To improve model efficiency and facilitate deployment, we further design an efficient lightweight student model, which learns to perform fine-grained localization through knowledge distillation from a fixed teacher model based on the Segment Anything Model (SAM). Moreover, inspired by the human subconscious memory mechanism, our feature fusion module employs a dual-guidance strategy that actively contextualizes recalled prototypical patterns with real-time observational cues derived from the input. Instead of passive feature extraction, this strategy enables a dynamic process of knowledge recollection, where long-term memory is adapted to the specific context of the current image, significantly enhancing localization accuracy and robustness. Extensive experiments across both in-distribution and out-of-distribution datasets show that BoxPromptIML outperforms or rivals fully-supervised models, while maintaining strong generalization, low annotation cost, and efficient deployment characteristics.
- Abstract(参考訳): 画像操作ローカライゼーション(IML)は、アノテーションコストの最小化と微粒化ローカライゼーション精度の達成の間に、基本的なトレードオフに直面している。
既存の完全教師付きIMLメソッドは、大規模なデータセットや実世界のデプロイにスケーラビリティを制限する、高密度なピクセルレベルのマスクアノテーションに大きく依存している。それに対して、既存の弱教師付きIMLアプローチの大部分は、画像レベルのラベルに基づいており、アノテーションの労力を大幅に削減するが、通常は正確な空間的ローカライゼーションを欠いている。
このジレンマに対処するために、アノテーションコストとローカライズ性能を効果的にバランスする、新しい弱い教師付きIMLフレームワークであるBoxPromptIMLを提案する。
具体的には,比較的正確な操作マスクを低コストで生成できる粗い領域アノテーション戦略を提案する。
モデル効率の向上と展開の促進を目的として,Segment Anything Model (SAM) に基づく定型教師モデルから知識蒸留によるきめ細かな局所化を学習する,効率的な軽量学生モデルを設計する。
さらに,人間の意識的記憶機構にインスパイアされた特徴融合モジュールは,入力から得られるリアルタイム観測的手がかりを用いて,リコールされた原型パターンを積極的に文脈化するための二重誘導方式を採用している。
受動的特徴抽出の代わりに、この戦略は、長期記憶が現在の画像の特定の文脈に適応し、局所化精度とロバスト性を大幅に向上する知識再構成の動的なプロセスを可能にする。
BoxPromptIMLは、強力な一般化、低アノテーションコスト、効率的なデプロイメント特性を維持しながら、配信内データセットと配信外データセットの両方にわたる広範な実験により、完全に教師されたモデルよりも優れている、あるいは競合することを示している。
関連論文リスト
- EfficientIML: Efficient High-Resolution Image Manipulation Localization [38.432078329653926]
1200以上の拡散生成操作を意味的に抽出したマスクを用いた新しい高分解能SIFデータセットを提案する。
本稿では,軽量で3段階のRWKVバックボーンを有する新しいEfficientIMLモデルを提案する。
提案手法は, ローカライズ性能, FLOP, 推論速度において, ViT ベースや他の SOTA 軽量ベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-09-10T13:32:02Z) - UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization [19.797719494981923]
拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。
UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、AIMとCIMLタスクのF1メトリックスで優れていることを示す。
論文 参考訳(メタデータ) (2025-08-08T08:00:28Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。
画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。
本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:35:09Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。