論文の概要: Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics
- arxiv url: http://arxiv.org/abs/2301.07431v1
- Date: Wed, 18 Jan 2023 11:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:18:39.062749
- Title: Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics
- Title(参考訳): 鋭い目:人間の視覚特性と同じような働きをするサルエント物体検出器
- Authors: Ge Zhu, Jinbao Li and Yahong Guo
- Abstract要約: 本稿では,まず被写体をシーンから分離し,それを細分化するシャープアイネットワーク(SENet)を提案する。
提案手法は,拡張オブジェクトを用いてネットワークを誘導し,完全な予測を行う。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods aggregate multi-level features or introduce edge and skeleton
to get more refined saliency maps. However, little attention is paid to how to
obtain the complete salient object in cluttered background, where the targets
are usually similar in color and texture to the background. To handle this
complex scene, we propose a sharp eyes network (SENet) that first seperates the
object from scene, and then finely segments it, which is in line with human
visual characteristics, i.e., to look first and then focus. Different from
previous methods which directly integrate edge or skeleton to supplement the
defects of objects, the proposed method aims to utilize the expanded objects to
guide the network obtain complete prediction. Specifically, SENet mainly
consists of target separation (TS) brach and object segmentation (OS) branch
trained by minimizing a new hierarchical difference aware (HDA) loss. In the TS
branch, we construct a fractal structure to produce saliency features with
expanded boundary via the supervision of expanded ground truth, which can
enlarge the detail difference between foreground and background. In the OS
branch, we first aggregate multi-level features to adaptively select
complementary components, and then feed the saliency features with expanded
boundary into aggregated features to guide the network obtain complete
prediction. Moreover, we propose the HDA loss to further improve the structural
integrity and local details of the salient objects, which assigns weight to
each pixel according to its distance from the boundary hierarchically. Hard
pixels with similar appearance in border region will be given more attention
hierarchically to emphasize their importance in completeness prediction.
Comprehensive experimental results on five datasets demonstrate that the
proposed approach outperforms the state-of-the-art methods both quantitatively
and qualitatively.
- Abstract(参考訳): 現在の手法では、多レベル機能を集約したり、より洗練された塩分マップを得るためにエッジとスケルトンを導入したりしている。
しかし, 対象物が背景と色やテクスチャによく似ている, 乱雑な背景において, 完全正当物を得る方法にはほとんど注意が払わない。
この複雑なシーンに対処するために,まず物体をシーンから分離し,次に人間の視覚的特徴,すなわちまず目を見て焦点を合わせるように細分化するシャープアイネットワーク(SENet)を提案する。
対象物の欠陥を補うためにエッジやスケルトンを直接統合する従来の手法とは異なり,提案手法は拡張されたオブジェクトを利用して完全な予測を得る。
具体的には、SENetは主にターゲット分離(TS)ブラッチと、新しい階層的差分認識(HDA)損失を最小限に抑えてトレーニングされたオブジェクトセグメンテーション(OS)ブランチで構成される。
TSブランチでは,拡張された地中真理の監督により,拡張された境界で塩分濃度特性を生成するフラクタル構造を構築し,前景と背景の細部の違いを拡大することができる。
osブランチでは、まずマルチレベル機能を集約し、相補的なコンポーネントを適応的に選択し、拡張されたバウンダリでサリエンシー機能を集約機能に供給することで、ネットワークが完全な予測を得るためのガイドを行います。
さらに,HDAの損失により,各画素に重みを階層的な境界からの距離に応じて割り当てるサリアントオブジェクトの構造的整合性や局所的詳細性が向上する。
境界領域に類似した硬いピクセルが階層的に注目され、完全性予測の重要性が強調される。
5つのデータセットに関する包括的実験結果から,提案手法が定量的および定性的に最先端手法を上回っていることが示された。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - GaTector: A Unified Framework for Gaze Object Prediction [11.456242421204298]
我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に、重なり合う領域を共有できない場合でも、ボックス間の差を明らかにすることのできる、新しいwUoCメトリックを提案する。
論文 参考訳(メタデータ) (2021-12-07T07:50:03Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。