論文の概要: Learning to Detect Every Thing in an Open World
- arxiv url: http://arxiv.org/abs/2112.01698v1
- Date: Fri, 3 Dec 2021 03:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 04:01:48.819113
- Title: Learning to Detect Every Thing in an Open World
- Title(参考訳): オープン世界のあらゆるものを検出するための学習
- Authors: Kuniaki Saito, Ping Hu, Trevor Darrell, Kate Saenko
- Abstract要約: 我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
- 参考スコア(独自算出の注目度): 139.78830329914135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many open-world applications require the detection of novel objects, yet
state-of-the-art object detection and instance segmentation networks do not
excel at this task. The key issue lies in their assumption that regions without
any annotations should be suppressed as negatives, which teaches the model to
treat the unannotated objects as background. To address this issue, we propose
a simple yet surprisingly powerful data augmentation and training scheme we
call Learning to Detect Every Thing (LDET). To avoid suppressing hidden
objects, background objects that are visible but unlabeled, we paste annotated
objects on a background image sampled from a small region of the original
image. Since training solely on such synthetically augmented images suffers
from domain shift, we decouple the training into two parts: 1) training the
region classification and regression head on augmented images, and 2) training
the mask heads on original images. In this way, a model does not learn to
classify hidden objects as background while generalizing well to real images.
LDET leads to significant improvements on many datasets in the open world
instance segmentation task, outperforming baselines on cross-category
generalization on COCO, as well as cross-dataset evaluation on UVO and
Cityscapes.
- Abstract(参考訳): 多くのオープンワールドアプリケーションは、新しいオブジェクトを検知する必要があるが、最先端のオブジェクト検出とインスタンスセグメンテーションネットワークは、このタスクでは優れていない。
重要な問題は、アノテーションのない領域は負として抑制されるべきであると仮定し、モデルにアノテーションのないオブジェクトを背景として扱うように教えることである。
この問題に対処するため,我々はLDET(Learning to Detect Every Thing)と呼ぶ,シンプルながら驚くほど強力なデータ拡張とトレーニング手法を提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
このような合成強調画像のみのトレーニングはドメインシフトに悩まされるため、トレーニングを2つに分割する。
1)拡大画像における領域分類と回帰ヘッドの訓練
2) マスクヘッドをオリジナル画像で訓練する。
このようにして、モデルは、実画像によく一般化しながら、隠れたオブジェクトを背景として分類することを学ばない。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおける多くのデータセットの大幅な改善、COCOのクロスカテゴリ一般化のベースラインの向上、UVOとCityscapesのクロスデータセット評価などにつながります。
関連論文リスト
- Improving Object Detection via Local-global Contrastive Learning [27.660633883387753]
本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
論文 参考訳(メタデータ) (2024-10-07T14:18:32Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。