論文の概要: TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization
- arxiv url: http://arxiv.org/abs/2212.12841v1
- Date: Sun, 25 Dec 2022 02:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:32:42.392760
- Title: TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization
- Title(参考訳): TriPINet:画像操作ローカライゼーションのための3部統合ネットワーク
- Authors: Wei-Yun Liang, Jing Xu, and Xiao Jin
- Abstract要約: 本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
- 参考スコア(独自算出の注目度): 3.7359400978194675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image manipulation localization aims at distinguishing forged regions from
the whole test image. Although many outstanding prior arts have been proposed
for this task, there are still two issues that need to be further studied: 1)
how to fuse diverse types of features with forgery clues; 2) how to
progressively integrate multistage features for better localization
performance. In this paper, we propose a tripartite progressive integration
network (TriPINet) for end-to-end image manipulation localization. First, we
extract both visual perception information, e.g., RGB input images, and visual
imperceptible features, e.g., frequency and noise traces for forensic feature
learning. Second, we develop a guided cross-modality dual-attention (gCMDA)
module to fuse different types of forged clues. Third, we design a set of
progressive integration squeeze-and-excitation (PI-SE) modules to improve
localization performance by appropriately incorporating multiscale features in
the decoder. Extensive experiments are conducted to compare our method with
state-of-the-art image forensics approaches. The proposed TriPINet obtains
competitive results on several benchmark datasets.
- Abstract(参考訳): 画像操作のローカライゼーションは、テスト画像全体から偽領域を識別することを目的としている。
この課題には多くの優れた先行技術が提案されているが、さらに研究すべき課題は2つある。
1) 様々な種類の機能を偽造手掛かりと融合させる方法
2)マルチステージ機能を段階的に統合してローカライズ性能を向上させる方法。
本稿では,エンド・ツー・エンドの画像操作ローカライズのための3成分プログレッシブ統合ネットワーク(tripinet)を提案する。
まず,rgb入力画像などの視覚知覚情報と,法医学的特徴学習のための周波数・雑音追跡などの視覚不可視特徴の両方を抽出する。
第2に,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発する。
第3に,マルチスケール機能をデコーダに適切に組み込むことにより,ローカライズ性能を向上させるために,プログレッシブ統合swish-and-excitation(pi-se)モジュール群を設計する。
本手法と最先端画像鑑定法との比較実験を行った。
提案したTriPINetは、いくつかのベンチマークデータセットで競合する結果を得る。
関連論文リスト
- DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Exploring the Interactive Guidance for Unified and Effective Image
Matting [16.933897631478146]
そこで我々はUIMという名前のUnified Interactive Image Matting法を提案する。
具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避する。
UIMは,コンポジション1Kテストセットと合成統合データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-17T13:20:30Z) - Exploring Separable Attention for Multi-Contrast MR Image
Super-Resolution [88.16655157395785]
本稿では,SANet という,分離可能なアテンションネットワーク (優先のアテンションと背景分離のアテンションを含む) を提案する。
補助コントラストの助けを借りて、前後方向の前景と背景領域を探索することができる。
これは、補助コントラストを用いて前景と背景領域を予測する分離可能なアテンションメカニズムを探索する最初のモデルである。
論文 参考訳(メタデータ) (2021-09-03T05:53:07Z) - Operation-wise Attention Network for Tampering Localization Fusion [15.633461635276337]
本研究では,画像改ざん局在融合のための深層学習手法を提案する。
このアプローチは、複数の画像法医学アルゴリズムの結果を組み合わせるために設計され、融合したタンパリングローカライゼーションマップを提供する。
我々の融合フレームワークは、JPEG画像上のローカライズをスプライシングするための5つの個別タンパリングローカライズ手法を含む。
論文 参考訳(メタデータ) (2021-05-12T08:50:59Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。