論文の概要: Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2507.13018v1
- Date: Thu, 17 Jul 2025 11:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.472783
- Title: Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization
- Title(参考訳): フルビジョンのピクセルアノテーションを超えて:画像操作のローカライゼーションのためのスクリブル駆動弱めのフレームワーク
- Authors: Songlin Li, Guofeng Yu, Zhiqing Guo, Yunfeng Diao, Dan Ma, Gaobo Yang, Liejun Wang,
- Abstract要約: アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
- 参考スコア(独自算出の注目度): 11.10178274806454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based image manipulation localization (IML) methods have achieved remarkable performance in recent years, but typically rely on large-scale pixel-level annotated datasets. To address the challenge of acquiring high-quality annotations, some recent weakly supervised methods utilize image-level labels to segment manipulated regions. However, the performance is still limited due to insufficient supervision signals. In this study, we explore a form of weak supervision that improves the annotation efficiency and detection performance, namely scribble annotation supervision. We re-annotated mainstream IML datasets with scribble labels and propose the first scribble-based IML (Sc-IML) dataset. Additionally, we propose the first scribble-based weakly supervised IML framework. Specifically, we employ self-supervised training with a structural consistency loss to encourage the model to produce consistent predictions under multi-scale and augmented inputs. In addition, we propose a prior-aware feature modulation module (PFMM) that adaptively integrates prior information from both manipulated and authentic regions for dynamic feature adjustment, further enhancing feature discriminability and prediction consistency in complex scenes. We also propose a gated adaptive fusion module (GAFM) that utilizes gating mechanisms to regulate information flow during feature fusion, guiding the model toward emphasizing potential tampered regions. Finally, we propose a confidence-aware entropy minimization loss (${\mathcal{L}}_{ {CEM }}$). This loss dynamically regularizes predictions in weakly annotated or unlabeled regions based on model uncertainty, effectively suppressing unreliable predictions. Experimental results show that our method outperforms existing fully supervised approaches in terms of average performance both in-distribution and out-of-distribution.
- Abstract(参考訳): ディープラーニングベースの画像操作ローカライゼーション(IML)手法は近年顕著なパフォーマンスを達成しているが、通常は大規模ピクセルレベルの注釈付きデータセットに依存している。
高品質なアノテーションを取得することの課題に対処するため、最近の弱い教師付き手法では、画像レベルのラベルを使って操作された領域をセグメント化している。
しかし、監視信号が不十分なため、性能は依然として限られている。
本研究では,アノテーションの効率と検出性能,すなわちスクリブルアノテーションの監督を改善する弱監督形態について検討する。
我々は,主要なMLデータセットをスクリブルラベルで再注釈し,最初のスクリブルベースIMLデータセットを提案する。
さらに,スクリブルベースの弱教師付きMLフレームワークを提案する。
具体的には,モデルがマルチスケールおよび拡張入力下で一貫した予測を生成することを奨励するために,構造的整合性損失を伴う自己教師型トレーニングを採用する。
さらに、動的特徴調整のために、操作された領域と認証領域の両方の事前情報を適応的に統合し、複雑なシーンにおける特徴識別性と予測整合性をさらに向上する、事前認識機能変調モジュール(PFMM)を提案する。
また,ゲート型適応核融合モジュール (GAFM) を提案する。このモジュールはゲーティング機構を利用して特徴核融合時の情報の流れを制御し,潜在的な改ざん領域の強調に向けてモデルを導く。
最後に,信頼性を考慮したエントロピー最小化損失({\mathcal{L}}_{ {CEM }}$)を提案する。
この損失は、モデルの不確実性に基づいて弱い注釈付き領域やラベルなし領域の予測を動的に正規化し、信頼できない予測を効果的に抑制する。
実験の結果,本手法は分布内および分布外の両方の平均性能において,既存の完全教師付きアプローチよりも優れていた。
関連論文リスト
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。
クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。
ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文 参考訳(メタデータ) (2025-07-17T05:47:19Z) - Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - HELPNet: Hierarchical Perturbations Consistency and Entropy-guided Ensemble for Scribble Supervised Medical Image Segmentation [4.034121387622003]
本稿では,新しいスクリブルベースの弱教師付きセグメンテーションフレームワークHELPNetを提案する。
HELPNetはアノテーション効率とセグメンテーション性能のギャップを埋めるために3つのモジュールを統合する。
HELPNetは、スクリブルベースの弱教師付きセグメンテーションの最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-25T01:52:01Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - WeaNF: Weak Supervision with Normalizing Flows [4.446580498787894]
弱監督は、ノイズのあるラベル、カバレッジ、バイアスの問題を提起する。
ラベル付け関数を対象とする入力側データ分布を生成的にモデル化する。
各種弱監視データセットの有効性とモデル化能力について検討する。
論文 参考訳(メタデータ) (2022-04-28T10:59:54Z) - Learning to Adapt to Unseen Abnormal Activities under Weak Supervision [43.40900198498228]
ビデオ中の弱教師付き異常検出のためのメタラーニングフレームワークを提案する。
このフレームワークは,バイナリラベルの動画レベルのアノテーションが利用可能である場合にのみ,目に見えないような異常なアクティビティに効果的に対応できることを学習する。
論文 参考訳(メタデータ) (2022-03-25T12:15:44Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。