論文の概要: SPAN: Spatial Pyramid Attention Network forImage Manipulation
Localization
- arxiv url: http://arxiv.org/abs/2009.00726v2
- Date: Thu, 14 Jan 2021 01:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:38:00.179914
- Title: SPAN: Spatial Pyramid Attention Network forImage Manipulation
Localization
- Title(参考訳): SPAN:画像操作局所化のための空間ピラミッド注意ネットワーク
- Authors: Xuefeng Hu, Zhihan Zhang, Zhenye Jiang, Syomantak Chaudhuri, Zhenheng
Yang, Ram Nevatia
- Abstract要約: 本稿では,複数種類の画像操作の検出と位置決定のための新しいフレームワークである空間ピラミッド注意ネットワーク(SPAN)を提案する。
SPANは汎用的な合成データセットでトレーニングされるが、特定のデータセットに対して微調整することもできる。
提案手法は,従来の最先端手法に比べて,標準データセットの性能が著しく向上したことを示す。
- 参考スコア(独自算出の注目度): 24.78951727072683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel framework, Spatial Pyramid Attention Network (SPAN) for
detection and localization of multiple types of image manipulations. The
proposed architecture efficiently and effectively models the relationship
between image patches at multiple scales by constructing a pyramid of local
self-attention blocks. The design includes a novel position projection to
encode the spatial positions of the patches. SPAN is trained on a generic,
synthetic dataset but can also be fine tuned for specific datasets; The
proposed method shows significant gains in performance on standard datasets
over previous state-of-the-art methods.
- Abstract(参考訳): 本稿では,複数種類の画像操作の検出と位置決定のための空間ピラミッド注意ネットワーク(SPAN)を提案する。
提案するアーキテクチャは,局所的自己アテンションブロックのピラミッドを構築し,複数のスケールで画像パッチ間の関係を効率的かつ効果的にモデル化する。
この設計はパッチの空間的位置を符号化する新しい位置投影を含む。
SPANは汎用的な合成データセットに基づいてトレーニングされているが、特定のデータセットに対して微調整することもできる。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder [26.81539884309151]
リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:02:15Z) - SCALAR-NeRF: SCAlable LARge-scale Neural Radiance Fields for Scene
Reconstruction [66.69049158826677]
本稿では,スケーラブルな大規模ニューラルシーン再構築に適した新しいフレームワークであるSCALAR-NeRFを紹介する。
ニューラル表現をエンコーダ・デコーダアーキテクチャとして構成し、そこではエンコーダが3次元点座標を処理してエンコーダ化された特徴を生成する。
そこで本研究では,これらの局所モデルから出力を抽出し,最終的な再構築を実現するための効率的かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T10:18:16Z) - Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction
Network for Tone Mapping [35.47139372780014]
本稿では, 閉形式ラプラシアンピラミッドの分解と復元を利用して, グローバルおよびローカル演算子を統合する新しい戦略について検討する。
周波数情報の特徴を利用して低周波画像のトーンを操作するために,画像適応型3D LUTを用いた。
また、局所ラプラシアフィルタを用いて、高周波成分のエッジ詳細を適応的に洗練する。
論文 参考訳(メタデータ) (2023-10-26T07:05:38Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Image Stitching Based on Planar Region Consensus [22.303750435673752]
本稿では,マッチングされた支配的な平面領域の集合をアライメントすることで,画像の縫合を行う新しい画像縫合法を提案する。
我々は、RGB画像から直接リッチな意味情報を用いて、深層畳み込みニューラルネットワーク(CNN)を用いて平面画像領域を抽出する。
我々の手法は、異なる状況に対処し、挑戦的な場面で最先端の技術を発揮できる。
論文 参考訳(メタデータ) (2020-07-06T13:07:20Z) - Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。
すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。
単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文 参考訳(メタデータ) (2020-05-04T20:03:21Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。