論文の概要: Salient Object Ranking with Position-Preserved Attention
- arxiv url: http://arxiv.org/abs/2106.05047v1
- Date: Wed, 9 Jun 2021 13:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:09:13.700124
- Title: Salient Object Ranking with Position-Preserved Attention
- Title(参考訳): 位置保存注意による有能な物体ランク付け
- Authors: Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu,
Deng Cai and Xiaofei He
- Abstract要約: 本研究では,検出対象のランク付け順序を視覚的サリエンシに応じて割り当てるSOR(Salient Object Ranking)タスクについて検討する。
本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。
また、SORブランチ用に調整されたPPAモジュールも導入する。
- 参考スコア(独自算出の注目度): 44.94722064885407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance segmentation can detect where the objects are in an image, but hard
to understand the relationship between them. We pay attention to a typical
relationship, relative saliency. A closely related task, salient object
detection, predicts a binary map highlighting a visually salient region while
hard to distinguish multiple objects. Directly combining two tasks by
post-processing also leads to poor performance. There is a lack of research on
relative saliency at present, limiting the practical applications such as
content-aware image cropping, video summary, and image labeling.
In this paper, we study the Salient Object Ranking (SOR) task, which manages
to assign a ranking order of each detected object according to its visual
saliency. We propose the first end-to-end framework of the SOR task and solve
it in a multi-task learning fashion. The framework handles instance
segmentation and salient object ranking simultaneously. In this framework, the
SOR branch is independent and flexible to cooperate with different detection
methods, so that easy to use as a plugin. We also introduce a
Position-Preserved Attention (PPA) module tailored for the SOR branch. It
consists of the position embedding stage and feature interaction stage.
Considering the importance of position in saliency comparison, we preserve
absolute coordinates of objects in ROI pooling operation and then fuse
positional information with semantic features in the first stage. In the
feature interaction stage, we apply the attention mechanism to obtain
proposals' contextualized representations to predict their relative ranking
orders. Extensive experiments have been conducted on the ASR dataset. Without
bells and whistles, our proposed method outperforms the former state-of-the-art
method significantly. The code will be released publicly available.
- Abstract(参考訳): インスタンスセグメンテーションは、オブジェクトが画像のどこにいるかを検出するが、それらの関係を理解するのは難しい。
私たちは典型的な関係、相対的な正当性に注意を払う。
密接に関連するタスクであるsalient object detectionは、複数のオブジェクトを識別するのは難しいが、視覚的なsalient領域をハイライトするバイナリマップを予測する。
後処理による2つのタスクの直接結合もパフォーマンスの低下につながる。
現在、相対的正当性の研究が欠如しており、コンテンツ対応画像トリミング、ビデオ要約、画像ラベリングといった実用的応用が制限されている。
本稿では,検出された各対象の順位を視覚的な順に割り当てるsaient object ranking (sor)タスクについて検討する。
本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。
このフレームワークはインスタンスセグメンテーションと適切なオブジェクトランキングを同時に処理する。
このフレームワークでは、sorブランチは独立で柔軟性があり、異なる検出メソッドと連携できるため、プラグインとして簡単に使用できます。
また、SORブランチ用に調整されたPPAモジュールも導入する。
位置埋め込みステージと特徴相互作用ステージで構成される。
正当性比較における位置の重要性を考慮すると、ROIプーリング動作における物体の絶対座標を保存し、第1段階における意味的特徴と位置情報を融合する。
特徴対話の段階では,提案の文脈化表現の獲得に注意機構を適用し,相対的な順位の予測を行う。
ASRデータセットで大規模な実験が行われた。
ベルとホイッスルがなければ,提案手法は従来の最先端手法よりも優れる。
コードは一般公開される予定だ。
関連論文リスト
- Order-aware Interactive Segmentation [29.695857327102647]
OIS: オブジェクト間の相対的な深さを順序マップに明示的にエンコードする,順序対応の対話的セグメンテーション。
本稿では,ユーザインタラクション(クリックの形で)をシームレスに案内し,画像機能に参画するオーダアウェアを新たに導入する。
当社のアプローチは,ユーザクリックの密集度と疎結合性を両立させ,従来の作業と比較して精度と効率性を両立させる。
論文 参考訳(メタデータ) (2024-10-16T04:19:28Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Rethinking Video Salient Object Ranking [39.091162729266294]
SOR(Salient Object Ranking)は、入力画像内の複数のSORオブジェクトのSOR(Salient Object Ranking)をランク付けする。
最近では、予測固定マップに基づいて、入力ビデオ中の有能なオブジェクトをランク付けする手法が提案されている。
本稿では2つの新しいモジュールを持つビデオ・サリエント・オブジェクト・ランキング(VSOR)のエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:55:54Z) - Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene
Recognition [19.503027767462605]
本研究では,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。
OTSは、新たなストリームを使わずに、室内のシーン認識において、最先端の手法を2%以上上回っている。
論文 参考訳(メタデータ) (2021-08-01T08:37:08Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。