論文の概要: A Visually Attentive Splice Localization Network with Multi-Domain
Feature Extractor and Multi-Receptive Field Upsampler
- arxiv url: http://arxiv.org/abs/2401.06995v1
- Date: Sat, 13 Jan 2024 06:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:19:18.694956
- Title: A Visually Attentive Splice Localization Network with Multi-Domain
Feature Extractor and Multi-Receptive Field Upsampler
- Title(参考訳): マルチドメイン特徴抽出器とマルチレセプティブフィールドアップサンプラーを用いた視覚注意スプライス定位ネットワーク
- Authors: Ankit Yadav, Dinesh Kumar Vishwakarma
- Abstract要約: パブリックベンチマークデータセットであるCAIA v2.0で行った実験結果から,提案モデルの有効性が証明された。
IoUスコア0.851、画素F1スコア0.9195、画素AUCスコア0.8989を達成して、既存の最先端技術を快適に打ち負かす。
- 参考スコア(独自算出の注目度): 19.30075248247771
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image splice manipulation presents a severe challenge in today's society.
With easy access to image manipulation tools, it is easier than ever to modify
images that can mislead individuals, organizations or society. In this work, a
novel, "Visually Attentive Splice Localization Network with Multi-Domain
Feature Extractor and Multi-Receptive Field Upsampler" has been proposed. It
contains a unique "visually attentive multi-domain feature extractor" (VA-MDFE)
that extracts attentional features from the RGB, edge and depth domains. Next,
a "visually attentive downsampler" (VA-DS) is responsible for fusing and
downsampling the multi-domain features. Finally, a novel "visually attentive
multi-receptive field upsampler" (VA-MRFU) module employs multiple receptive
field-based convolutions to upsample attentional features by focussing on
different information scales. Experimental results conducted on the public
benchmark dataset CASIA v2.0 prove the potency of the proposed model. It
comfortably beats the existing state-of-the-arts by achieving an IoU score of
0.851, pixel F1 score of 0.9195 and pixel AUC score of 0.8989.
- Abstract(参考訳): イメージスプライス操作は、今日の社会で深刻な課題を呈している。
画像操作ツールに簡単にアクセスできるので、個人や組織、社会を誤解させるようなイメージを修正するのは、これまで以上に簡単です。
本研究では,マルチドメイン特徴抽出器とマルチ受信フィールドアップサンプラーを用いた視覚的スプライス局所化ネットワークを提案する。
視覚的に注意深いマルチドメイン特徴抽出器(va-mdfe)は、rgb、エッジ、深さ領域から注意深い特徴を抽出する。
次に、"視覚的に注意深いダウンサンプラー"(va-ds)がマルチドメイン機能の融合とダウンサンプリングを担当します。
最後に,新しいva-mrfu(visually attentive multi-receptive field upsampler)モジュールでは,複数の受容場に基づく畳み込みを用いて,異なる情報尺度に着目して注意特性を推定する。
CASIA v2.0で行った実験結果から,提案モデルの有効性が確認された。
IoUスコア0.851、画素F1スコア0.9195、画素AUCスコア0.8989を達成して、既存の最先端技術を快適に打ち負かす。
関連論文リスト
- LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Fully Transformer Network for Change Detection of Remote Sensing Images [22.989324947501014]
リモートセンシング画像CDのための新しい学習フレームワークであるFully Transformer Network (FTN)を提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの公開CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-03T08:21:25Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z) - MSDU-net: A Multi-Scale Dilated U-net for Blur Detection [6.681328723369075]
我々はU-netをベースとしたマルチスケール拡張畳み込みニューラルネットワークを設計し、MSDU-netと呼ぶ。
MSDU-netは、拡張畳み込みを持つマルチスケールの特徴抽出器のグループを使用して、異なるスケールでテクスチャ情報を抽出する。
我々は,MSDU-netを用いて,公開された2つのベンチマークにおいて,アートボケ検出方法の他の状況よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-05T00:30:38Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。