論文の概要: Disentangled High Quality Salient Object Detection
- arxiv url: http://arxiv.org/abs/2108.03551v1
- Date: Sun, 8 Aug 2021 02:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 08:57:10.291111
- Title: Disentangled High Quality Salient Object Detection
- Title(参考訳): 遠絡型高精細物体検出
- Authors: Lv Tang, Bo Li, Shouhong Ding, Mofei Song
- Abstract要約: 本稿では,SOD(High- resolution Salient Object Detection)のための新しいディープラーニングフレームワークを提案する。
タスクを低分解能唾液度分類ネットワーク(LRSCN)と高分解能精製ネットワーク(HRRN)に切り離す。
- 参考スコア(独自算出の注目度): 8.416690566816305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming at discovering and locating most distinctive objects from visual
scenes, salient object detection (SOD) plays an essential role in various
computer vision systems. Coming to the era of high resolution, SOD methods are
facing new challenges. The major limitation of previous methods is that they
try to identify the salient regions and estimate the accurate objects
boundaries simultaneously with a single regression task at low-resolution. This
practice ignores the inherent difference between the two difficult problems,
resulting in poor detection quality. In this paper, we propose a novel deep
learning framework for high-resolution SOD task, which disentangles the task
into a low-resolution saliency classification network (LRSCN) and a
high-resolution refinement network (HRRN). As a pixel-wise classification task,
LRSCN is designed to capture sufficient semantics at low-resolution to identify
the definite salient, background and uncertain image regions. HRRN is a
regression task, which aims at accurately refining the saliency value of pixels
in the uncertain region to preserve a clear object boundary at high-resolution
with limited GPU memory. It is worth noting that by introducing uncertainty
into the training process, our HRRN can well address the high-resolution
refinement task without using any high-resolution training data. Extensive
experiments on high-resolution saliency datasets as well as some widely used
saliency benchmarks show that the proposed method achieves superior performance
compared to the state-of-the-art methods.
- Abstract(参考訳): 視覚的シーンから最も特徴的な物体を発見・発見することを目的として、様々なコンピュータビジョンシステムにおいて顕著な物体検出(SOD)が重要な役割を果たす。
高解像度の時代になると、SOD法は新しい課題に直面している。
従来の方法の主な制限は、サルエント領域を識別し、正確なオブジェクト境界を低解像度で単一の回帰タスクと同時に推定しようとすることである。
このプラクティスは、2つの難しい問題に固有の違いを無視し、検出品質が低くなる。
本稿では、高分解能SODタスクのための新しいディープラーニングフレームワークを提案し、そのタスクを低分解能サリエンシ分類ネットワーク(LRSCN)と高分解能改善ネットワーク(HRRN)に分解する。
LRSCNは画素単位の分類タスクとして、解像度の低い十分なセマンティクスをキャプチャして、明確な正像領域、背景領域、不確か像領域を識別するように設計されている。
HRRNはリグレッションタスクであり、不確実領域における画素のサリエンシ値を正確に修正し、GPUメモリに制限された高解像度で明確なオブジェクト境界を維持することを目的としている。
トレーニングプロセスに不確実性を導入することで、HRRNは、高解像度のトレーニングデータを用いることなく、高解像度のリファインメントタスクに対処できることに注意する必要がある。
高分解能saliencyデータセットと広く使用されているsaliencyベンチマークに関する広範囲な実験により、提案手法が最先端法よりも優れた性能を達成していることが示された。
関連論文リスト
- Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer [53.02254290682613]
現在の低解像度テキスト認識のソリューションは、通常2段階のパイプラインに依存している。
本稿では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
実験の結果、提案されたワンステージパイプラインは、超高解像度ベースの2ステージフレームワークよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-05T02:33:45Z) - Cross-resolution Face Recognition via Identity-Preserving Network and
Knowledge Distillation [12.090322373964124]
クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能画像の低周波成分に蓄積される識別情報にネットワークを集中させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Multi Scale Identity-Preserving Image-to-Image Translation Network for
Low-Resolution Face Recognition [7.6702700993064115]
本稿では,画像から画像へ変換する深層ニューラルネットワークを提案する。
アイデンティティ関連の情報を保存しながら、非常に低解像度の顔を高解像度の顔に超解き放つことができる。
論文 参考訳(メタデータ) (2020-10-23T09:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。