論文の概要: EfficientIML: Efficient High-Resolution Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2509.08583v1
- Date: Wed, 10 Sep 2025 13:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.433562
- Title: EfficientIML: Efficient High-Resolution Image Manipulation Localization
- Title(参考訳): EfficientIML:高分解能画像マニピュレーション・ローカライゼーション
- Authors: Jinhan Li, Haoyang He, Lei Xie, Jiangning Zhang,
- Abstract要約: 1200以上の拡散生成操作を意味的に抽出したマスクを用いた新しい高分解能SIFデータセットを提案する。
本稿では,軽量で3段階のRWKVバックボーンを有する新しいEfficientIMLモデルを提案する。
提案手法は, ローカライズ性能, FLOP, 推論速度において, ViT ベースや他の SOTA 軽量ベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 38.432078329653926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With imaging devices delivering ever-higher resolutions and the emerging diffusion-based forgery methods, current detectors trained only on traditional datasets (with splicing, copy-moving and object removal forgeries) lack exposure to this new manipulation type. To address this, we propose a novel high-resolution SIF dataset of 1200+ diffusion-generated manipulations with semantically extracted masks. However, this also imposes a challenge on existing methods, as they face significant computational resource constraints due to their prohibitive computational complexities. Therefore, we propose a novel EfficientIML model with a lightweight, three-stage EfficientRWKV backbone. EfficientRWKV's hybrid state-space and attention network captures global context and local details in parallel, while a multi-scale supervision strategy enforces consistency across hierarchical predictions. Extensive evaluations on our dataset and standard benchmarks demonstrate that our approach outperforms ViT-based and other SOTA lightweight baselines in localization performance, FLOPs and inference speed, underscoring its suitability for real-time forensic applications.
- Abstract(参考訳): イメージングデバイスがより高解像度の解像度を提供し、拡散ベースの偽造法が出現するにつれ、現在の検出器は従来のデータセット(スプライシング、コピームーブ、オブジェクト除去フォージェリーを含む)でしか訓練されていないため、この新しい操作タイプへの露出が欠如している。
そこで本研究では,1200以上の拡散生成操作を意味的に抽出したマスクを用いた新しい高分解能SIFデータセットを提案する。
しかし、これは既存の手法にも挑戦し、計算の複雑さが禁じられているため、重要な計算資源の制約に直面している。
そこで本研究では,軽量で3段階のEfficientRWKVバックボーンを持つ新しいEfficientIMLモデルを提案する。
効率的なRWKVのハイブリッドステートスペースとアテンションネットワークは、グローバルコンテキストとローカル詳細を並列にキャプチャし、マルチスケールの監視戦略は階層的予測を横断する一貫性を強制する。
我々のデータセットと標準ベンチマークの大規模な評価により、我々のアプローチは、ローカライゼーション性能、FLOP、推論速度において、ViTおよび他のSOTA軽量ベースラインよりも優れており、リアルタイムの法医学アプリケーションに適合していることが示されている。
関連論文リスト
- UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization [19.797719494981923]
拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。
UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、AIMとCIMLタスクのF1メトリックスで優れていることを示す。
論文 参考訳(メタデータ) (2025-08-08T08:00:28Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - AFLoRA: Adaptive Federated Fine-Tuning of Large Language Models with Resource-Aware Low-Rank Adaption [3.805501490912696]
フェデレートされた微調整は、分散データを使用して下流タスクにファンデーションモデルを適用するための有望なアプローチとして現れている。
大規模言語モデルのための適応的で軽量なファインチューニングフレームワークであるAFLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:35:32Z) - RefiDiff: Refinement-Aware Diffusion for Efficient Missing Data Imputation [13.401822039640297]
高次元混合型データセットの欠落値は、データ計算に重大な課題をもたらす。
本稿では,ローカルな機械学習予測と,新しいマンバベースの認知ネットワークを組み合わせた,革新的なフレームワークRefiDiffを提案する。
RefiDiffは、DDPMベースのアプローチよりも4倍高速なトレーニング時間で、不足値設定でステート・ザ・アート(SOTA)メソッドをパフォーマンスします。
論文 参考訳(メタデータ) (2025-05-20T14:51:07Z) - Low-Light Image Enhancement via Generative Perceptual Priors [75.01646333310073]
視覚言語モデル(VLM)を用いた新しいtextbfLLIE フレームワークを提案する。
まず、LL画像の複数の視覚特性を評価するためにVLMを誘導するパイプラインを提案し、その評価を定量化し、グローバルおよびローカルな知覚的先行情報を出力する。
LLIEを有効活用するために,これらの生成的知覚前駆体を組み込むため,拡散過程にトランスフォーマーベースのバックボーンを導入し,グローバルおよびローカルな知覚前駆体によってガイドされる新しい層正規化(textittextbfLPP-Attn)を開発する。
論文 参考訳(メタデータ) (2024-12-30T12:51:52Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。