論文の概要: Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection
- arxiv url: http://arxiv.org/abs/2204.05041v1
- Date: Mon, 11 Apr 2022 12:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:51:51.725358
- Title: Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection
- Title(参考訳): ピラミッドグラフトネットワークによる1段階高分解能塩分検出
- Authors: Chenxi Xie, Changqun Xia, Mingcan Ma, Zhirui Zhao, Xiaowu Chen and Jia
Li
- Abstract要約: 我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
- 参考スコア(独自算出の注目度): 29.013012579688347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent salient object detection (SOD) methods based on deep neural network
have achieved remarkable performance. However, most of existing SOD models
designed for low-resolution input perform poorly on high-resolution images due
to the contradiction between the sampling depth and the receptive field size.
Aiming at resolving this contradiction, we propose a novel one-stage framework
called Pyramid Grafting Network (PGNet), using transformer and CNN backbone to
extract features from different resolution images independently and then graft
the features from transformer branch to CNN branch. An attention-based
Cross-Model Grafting Module (CMGM) is proposed to enable CNN branch to combine
broken detailed information more holistically, guided by different source
feature during decoding process. Moreover, we design an Attention Guided Loss
(AGL) to explicitly supervise the attention matrix generated by CMGM to help
the network better interact with the attention from different models. We
contribute a new Ultra-High-Resolution Saliency Detection dataset UHRSD,
containing 5,920 images at 4K-8K resolutions. To our knowledge, it is the
largest dataset in both quantity and resolution for high-resolution SOD task,
which can be used for training and testing in future research. Sufficient
experiments on UHRSD and widely-used SOD datasets demonstrate that our method
achieves superior performance compared to the state-of-the-art methods.
- Abstract(参考訳): 近年,ディープニューラルネットワークに基づくsalient object detection (sod)法が注目されている。
しかし,低分解能入力用に設計された既存のSODモデルは,サンプリング深度と受容野の大きさの矛盾により,高分解能画像に不利な結果をもたらす。
本稿では,この矛盾を解決するために,トランスフォーマーとcnnバックボーンを用いて異なる解像度画像から特徴を独立に抽出し,その特徴をトランスフォーマーブランチからcnnブランチにグラフトする,ピラミッドグラフトネットワーク(pgnet)と呼ばれる新しい一段階フレームワークを提案する。
クロスモデルグラフトモジュール (cmgm) の提案により, cnn の分岐部では, 復号処理中の異なるソース特徴により, 分割された詳細な情報をより包括的に結合することが可能となった。
さらに,注意誘導損失(agl)を設計,cmgmが生成する注意行列を明示的に監視し,ネットワークが異なるモデルからの注意とよりよく相互作用できるようにする。
4k-8k解像度で5,920枚の画像を含む超高分解能saliency detection dataset uhrsdを提案する。
我々の知る限り、将来の研究でトレーニングやテストに使用できる高解像度SODタスクの量と解像度において最大のデータセットである。
UHRSDと広く使われているSODデータセットの十分な実験により,本手法は最先端の手法と比較して優れた性能を発揮することが示された。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - CoT-MISR:Marrying Convolution and Transformer for Multi-Image
Super-Resolution [3.105999623265897]
解像度の低い画像を変換して高解像度の画像情報を復元する方法は、これまで研究されてきた問題だ。
CoT-MISRネットワークは、畳み込みとtrの利点を利用して、ローカルおよびグローバルな情報を補完する。
論文 参考訳(メタデータ) (2023-03-12T03:01:29Z) - Model Inspired Autoencoder for Unsupervised Hyperspectral Image
Super-Resolution [25.878793557013207]
本稿では,低空間分解能HSIと高空間分解能マルチスペクトル像の融合を目的とした超高分解能画像(HSI)に焦点を当てた。
既存のディープラーニングベースのアプローチは、主に多数のラベル付きトレーニングサンプルに依存する教師付きである。
我々は、HSI超解像のためのモデルにインスパイアされたディープネットワークを教師なしで設計する最初の試みを行う。
論文 参考訳(メタデータ) (2021-10-22T05:15:16Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Locality-Aware Rotated Ship Detection in High-Resolution Remote Sensing
Imagery Based on Multi-Scale Convolutional Network [7.984128966509492]
マルチスケール畳み込みニューラルネットワーク(CNN)に基づく局所性認識型回転船検出(LARSD)フレームワークを提案する。
提案フレームワークはUNetのようなマルチスケールCNNを用いて高解像度の情報を持つマルチスケール特徴マップを生成する。
検出データセットを拡大するために、新しい高解像度船舶検出(HRSD)データセットを構築し、2499の画像と9269のインスタンスを異なる解像度でGoogle Earthから収集した。
論文 参考訳(メタデータ) (2020-07-24T03:01:42Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。