論文の概要: TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization
- arxiv url: http://arxiv.org/abs/2108.04508v1
- Date: Tue, 10 Aug 2021 08:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:22:42.877635
- Title: TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization
- Title(参考訳): tbnet:2-stream boundary-aware network for generic image manipulation localization
- Authors: Zan Gao, Chao Sun, Zhiyong Cheng, Weili Guan, Anan Liu, Meng Wang
- Abstract要約: 汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
- 参考スコア(独自算出の注目度): 49.521622399483846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finding tampered regions in images is a hot research topic in machine
learning and computer vision. Although many image manipulation location
algorithms have been proposed, most of them only focus on the RGB images with
different color spaces, and the frequency information that contains the
potential tampering clues is often ignored. In this work, a novel end-to-end
two-stream boundary-aware network (abbreviated as TBNet) is proposed for
generic image manipulation localization in which the RGB stream, the frequency
stream, and the boundary artifact location are explored in a unified framework.
Specifically, we first design an adaptive frequency selection module (AFS) to
adaptively select the appropriate frequency to mine inconsistent statistics and
eliminate the interference of redundant statistics. Then, an adaptive
cross-attention fusion module (ACF) is proposed to adaptively fuse the RGB
feature and the frequency feature. Finally, the boundary artifact location
network (BAL) is designed to locate the boundary artifacts for which the
parameters are jointly updated by the outputs of the ACF, and its results are
further fed into the decoder. Thus, the parameters of the RGB stream, the
frequency stream, and the boundary artifact location network are jointly
optimized, and their latent complementary relationships are fully mined. The
results of extensive experiments performed on four public benchmarks of the
image manipulation localization task, namely, CASIA1.0, COVER, Carvalho, and
In-The-Wild, demonstrate that the proposed TBNet can significantly outperform
state-of-the-art generic image manipulation localization methods in terms of
both MCC and F1.
- Abstract(参考訳): 画像中の改ざんされた領域を見つけることは、機械学習とコンピュータビジョンにおけるホットな研究トピックである。
多くの画像操作ロケーションアルゴリズムが提案されているが、その多くは異なる色空間を持つrgb画像のみに焦点を当てており、潜在的な改ざん手がかりを含む周波数情報はしばしば無視されている。
本稿では,rgbストリーム,周波数ストリーム,境界アーティファクトロケーションを統一フレームワークで探索する汎用画像操作ローカライズのために,エンドツーエンドの2ストリーム境界認識ネットワーク(tbnet)を提案する。
具体的には, 適応周波数選択モジュール (afs) をまず設計し, 不整合統計をマイニングするために適切な周波数を適応的に選択し, 冗長統計の干渉を除去した。
次に、RGB特徴と周波数特徴を適応的に融合させる適応的クロスアテンション融合モジュール(ACF)を提案する。
最後に、境界アーティファクト位置ネットワーク(BAL)は、パラメータがACFの出力によって共同で更新される境界アーティファクトを見つけるように設計されており、その結果はデコーダにさらに供給される。
したがって、RGBストリーム、周波数ストリーム、境界アーティファクト位置ネットワークのパラメータを協調的に最適化し、その潜在相補関係を完全にマイニングする。
casia1.0, cover, carvalho, in-the-wildの4つの画像操作ローカライズタスクの公開ベンチマーク実験の結果から,提案するtbnetはmccとf1の両方において,最先端の汎用的画像操作ローカライズ手法を大幅に上回ることができることが示された。
関連論文リスト
- United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images [21.76732661032257]
周波数領域と空間領域のグローバルローカル情報を共同で探索する新しい統一ドメイン認知ネットワーク(UDCNet)を提案する。
実験結果から提案したUDCNetが24種類の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-11T04:12:27Z) - Unveiling the Limits of Alignment: Multi-modal Dynamic Local Fusion Network and A Benchmark for Unaligned RGBT Video Object Detection [5.068440399797739]
現在のRGB-Thermal Video Object Detection (RGBT VOD) 法は、画像レベルで手動で調整するデータに依存する。
不整合RGBTペアを扱うために設計されたMDLNet(Multi-modal Dynamic Local fusion Network)を提案する。
MDLNet と State-of-the-art (SOTA) モデルとの総合的な評価と比較を行い,MDLNet の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T01:06:12Z) - FDCE-Net: Underwater Image Enhancement with Embedding Frequency and Dual Color Encoder [49.79611204954311]
水中画像は、低明度、色の変化、ぼやけた詳細、吸光光によるノイズ、水や懸濁粒子による散乱などの様々な問題に悩まされることが多い。
従来の水中画像強調法(UIE)は主に空間領域の強調に焦点を当てており、画像固有の周波数領域情報を無視している。
論文 参考訳(メタデータ) (2024-04-27T15:16:34Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Attention-Guided NIR Image Colorization via Adaptive Fusion of Semantic
and Texture Clues [6.437931036166344]
近赤外(NIR)イメージングは、低照度イメージングのシナリオに広く応用されている。
人間やアルゴリズムが無色のNIRドメインの実際のシーンを知覚することは困難である。
セマンティックおよびテクスチャのアダプティブフュージョンを用いた注意に基づく新しいNIR画像カラー化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-20T03:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。