論文の概要: Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter
- arxiv url: http://arxiv.org/abs/2008.05397v1
- Date: Mon, 10 Aug 2020 07:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:29:14.892372
- Title: Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter
- Title(参考訳): 画像サルエント物体検出の再検討 : オブジェクトレベルの意味サルエンシー再ランキング
- Authors: Zhenyu Wu, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin
- Abstract要約: 本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
- 参考スコア(独自算出の注目度): 62.26677215668959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real human attention is an interactive activity between our visual system
and our brain, using both low-level visual stimulus and high-level semantic
information. Previous image salient object detection (SOD) works conduct their
saliency predictions in a multi-task manner, i.e., performing pixel-wise
saliency regression and segmentation-like saliency refinement at the same time,
which degenerates their feature backbones in revealing semantic information.
However, given an image, we tend to pay more attention to those regions which
are semantically salient even in the case that these regions are perceptually
not the most salient ones at first glance. In this paper, we divide the SOD
problem into two sequential tasks: 1) we propose a lightweight, weakly
supervised deep network to coarsely locate those semantically salient regions
first; 2) then, as a post-processing procedure, we selectively fuse multiple
off-the-shelf deep models on these semantically salient regions as the
pixel-wise saliency refinement. In sharp contrast to the state-of-the-art
(SOTA) methods that focus on learning pixel-wise saliency in "single image"
using perceptual clues mainly, our method has investigated the "object-level
semantic ranks between multiple images", of which the methodology is more
consistent with the real human attention mechanism. Our method is simple yet
effective, which is the first attempt to consider the salient object detection
mainly as an object-level semantic re-ranking problem.
- Abstract(参考訳): 人間の本当の注意は、低レベルの視覚刺激と高レベルの意味情報の両方を用いて、視覚システムと脳の間の対話的な活動である。
従来のイメージ・サリエント・オブジェクト検出(SOD)は、複数のタスクでサリエンシの予測を行う。つまり、ピクセルワイド・サリエンシ・レグレッションとセグメンテーションのようなサリエンシ・リファインメントを同時に実行し、セマンティック情報を明らかにすることで特徴的バックボーンを退化させる。
しかし,画像を考えると,これらの領域が一見すると最も有意義な領域ではない場合でも,意味的に有意義な領域に注意を払う傾向がある。
本稿では,SOD問題を2つの逐次課題に分割する。
1) 意味的に有意義な領域をまず粗く特定するために, 軽量で教師の少ない深層ネットワークを提案する。
2) 処理後処理として, セマンティック・サリエント領域の複数のオフザシェルフ深部モデルを画素ワイド・サリエンシ改善法として選択的に融合させる。
知覚的手がかりを主とする「単一画像」におけるピクセル毎のサリエンシーの学習に焦点を当てたsota(state-of-the-art)手法とは対照的に,本手法は,実際の人間の注意機構とより一貫性のある「複数画像間の対象レベルの意味的ランク」について検討した。
提案手法は単純かつ効果的であり,主にオブジェクトレベルの意味的再ランキング問題としてサルエント物体検出を考える最初の試みである。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Weakly-Supervised Semantic Segmentation with Image-Level Labels: from
Traditional Models to Foundation Models [33.690846523358836]
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)はピクセルレベルのラベルを避ける効果的なソリューションである。
私たちは、WSSSの最も難しい形態であるイメージレベルのラベルによるWSSSに焦点を当てています。
本稿では,WSSS の文脈において,Segment Anything Model (SAM) などの視覚基盤モデルの適用性について検討する。
論文 参考訳(メタデータ) (2023-10-19T07:16:54Z) - Learning to search for and detect objects in foveal images using deep
learning [3.655021726150368]
本研究では,画像中のクラスを探索する人間の客観的な注意をエミュレートする固定予測モデルを用いる。
そして、各固定点のフェーブされた画像を分類して、シーンにターゲットが存在するか否かを判定する。
本稿では,2つのタスク間の知識伝達を可能とし,修正予測と検出を同時に行うことができる新しいデュアルタスクモデルを提案する。
論文 参考訳(メタデータ) (2023-04-12T09:50:25Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Detect and Locate: A Face Anti-Manipulation Approach with Semantic and
Noise-level Supervision [67.73180660609844]
本稿では,画像中の偽造顔を効率的に検出する,概念的にシンプルだが効果的な方法を提案する。
提案手法は,画像に関する意味の高い意味情報を提供するセグメンテーションマップに依存する。
提案モデルでは,最先端検出精度と顕著なローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2021-07-13T02:59:31Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention [11.23821696220285]
空間的注意は、リモートセンシング画像キャプションのパフォーマンスを高めるための簡単なアプローチです。
インスタンス認識と階層横断に注目したリモートセンシング画像キャプションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-05-11T12:59:07Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。