論文の概要: Background Learnable Cascade for Zero-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2010.04502v1
- Date: Fri, 9 Oct 2020 11:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:49:43.150653
- Title: Background Learnable Cascade for Zero-Shot Object Detection
- Title(参考訳): ゼロショット物体検出のための背景学習型カスケード
- Authors: Ye Zheng, Ruoran Huang, Chuanqi Han, Xi Huang, Li Cui
- Abstract要約: 本研究では,ZSD性能を向上させるために,バックグラウンド学習可能なカスケード(BLC)という新しいフレームワークを提案する。
実験の結果,BLCは最先端手法よりもMS-COCOの大幅な性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 13.524059785565901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot detection (ZSD) is crucial to large-scale object detection with the
aim of simultaneously localizing and recognizing unseen objects. There remain
several challenges for ZSD, including reducing the ambiguity between background
and unseen objects as well as improving the alignment between visual and
semantic concept. In this work, we propose a novel framework named Background
Learnable Cascade (BLC) to improve ZSD performance. The major contributions for
BLC are as follows: (i) we propose a multi-stage cascade structure named
Cascade Semantic R-CNN to progressively refine the alignment between visual and
semantic of ZSD; (ii) we develop the semantic information flow structure and
directly add it between each stage in Cascade Semantic RCNN to further improve
the semantic feature learning; (iii) we propose the background learnable region
proposal network (BLRPN) to learn an appropriate word vector for background
class and use this learned vector in Cascade Semantic R CNN, this design makes
\Background Learnable" and reduces the confusion between background and unseen
classes. Our extensive experiments show BLC obtains significantly performance
improvements for MS-COCO over state-of-the-art methods.
- Abstract(参考訳): ゼロショット検出(ZSD)は、見えない物体の局所化と認識を同時に行うために、大規模物体検出に不可欠である。
ZSDには、背景と見えないオブジェクト間のあいまいさの軽減や、視覚的概念と意味的概念の整合性の改善など、いくつかの課題がある。
本稿では,zsd性能を向上させるために,バックグラウンド学習型カスケード(blc)という新しいフレームワークを提案する。
BLCの主な貢献は以下のとおりである。
i)ZSDの視覚と意味の整合性を段階的に改善する多段カスケード構造Cascade Semantic R-CNNを提案する。
(ii)意味的情報フロー構造を開発し,カスケード意味的rcnnの各ステージ間を直接追加することで,意味的特徴学習をさらに改善する。
3) 背景学習可能な領域提案ネットワーク(BLRPN)を提案することにより,背景クラスに適した単語ベクトルを学習し,この学習ベクトルをカスケードセマンティックR CNNで使用する。
BLCは最先端手法よりもMS-COCOの大幅な性能向上を図っている。
関連論文リスト
- Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking [37.186306646752975]
マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-03T16:10:19Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Cross Language Image Matching for Weakly Supervised Semantic
Segmentation [26.04918485403939]
本稿では,CLIP(Contrastive Language- Image Pre-training)モデルに基づく,CLIMS(Cross Language Image Matching)フレームワークを提案する。
我々のフレームワークの中核となる考え方は、より完全なオブジェクト領域を活性化し、密接に関連するオープンバックグラウンド領域を抑えるために自然言語の監督を導入することである。
さらに、モデルが密接に関連する背景領域を活性化しないように、共起した背景抑圧損失を設計する。
論文 参考訳(メタデータ) (2022-03-05T06:39:48Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - TSG: Target-Selective Gradient Backprop for Probing CNN Visual Saliency [72.9106103283475]
我々は、畳み込みニューラルネットワークを解釈するために視覚的サリエンシ、すなわち視覚的説明について研究する。
これらの観測に触発されて、我々はTSG(Target-Selective Gradient)バックプロップと呼ばれる新しいビジュアル・サリエンシ・フレームワークを提案する。
提案したTSGはTSG-ConvとTSG-FCの2つのコンポーネントから構成され、それぞれ畳み込み層と完全連結層の勾配を補正する。
論文 参考訳(メタデータ) (2021-10-11T12:00:20Z) - Semantics-Guided Contrastive Network for Zero-Shot Object detection [67.61512036994458]
ゼロショット物体検出(ZSD)はコンピュータビジョンにおける新しい課題である。
ゼロショット検出の領域にコントラスト学習機構をもたらすフレームワークであるContrastZSDを開発した。
本手法は,ZSDタスクと一般化ZSDタスクの両方において,従来の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2021-09-04T03:32:15Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。