論文の概要: What leads to generalization of object proposals?
- arxiv url: http://arxiv.org/abs/2008.05700v1
- Date: Thu, 13 Aug 2020 05:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:13:36.030869
- Title: What leads to generalization of object proposals?
- Title(参考訳): オブジェクト提案の一般化につながるものは何か?
- Authors: Rui Wang, Dhruv Mahajan, Vignesh Ramanathan
- Abstract要約: 私たちは、小さなソースクラスでトレーニングされた検出モデルが、目に見えないクラスに一般化する提案を提供する方法を示します。
本稿では,検出モデルの学習に必要な十分かつ必要なクラスの集合であるプロトタイプクラスについて紹介する。
- 参考スコア(独自算出の注目度): 28.064317741170967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object proposal generation is often the first step in many detection models.
It is lucrative to train a good proposal model, that generalizes to unseen
classes. This could help scaling detection models to larger number of classes
with fewer annotations. Motivated by this, we study how a detection model
trained on a small set of source classes can provide proposals that generalize
to unseen classes. We systematically study the properties of the dataset -
visual diversity and label space granularity - required for good
generalization. We show the trade-off between using fine-grained labels and
coarse labels. We introduce the idea of prototypical classes: a set of
sufficient and necessary classes required to train a detection model to obtain
generalized proposals in a more data-efficient way. On the Open Images V4
dataset, we show that only 25% of the classes can be selected to form such a
prototypical set. The resulting proposals from a model trained with these
classes is only 4.3% worse than using all the classes, in terms of average
recall (AR). We also demonstrate that Faster R-CNN model leads to better
generalization of proposals compared to a single-stage network like RetinaNet.
- Abstract(参考訳): オブジェクトの提案生成は、多くの検出モデルにおける最初のステップであることが多い。
未発見のクラスに一般化した優れた提案モデルを訓練することは利益がある。
これにより、検出モデルをより少ないアノテーションで多数のクラスにスケールできる。
そこで本研究では,少数のソースクラスに対して学習した検出モデルを用いて,未知のクラスに一般化する提案を提案する。
良好な一般化に必要なデータセットの多様性とラベル空間の粒度の性質を系統的に研究する。
細粒度ラベルと粗いラベルとのトレードオフを示す。
よりデータ効率の良い方法で一般化された提案を得るために、検出モデルを訓練するために必要な十分かつ必要なクラスの集合である。
Open Images V4データセットでは、クラスのうちそのようなプロトタイプセットを形成するために選択できるのは25%に過ぎなかった。
これらのクラスでトレーニングされたモデルから得られた提案は、平均リコール(AR)の観点から、すべてのクラスを使用するよりもわずか4.3%悪い。
また、高速なR-CNNモデルにより、RetinaNetのようなシングルステージネットワークと比較して提案がより一般化されることを示す。
関連論文リスト
- LLM meets Vision-Language Models for Zero-Shot One-Class Classification [4.094697851983375]
ゼロショットワンクラス視覚分類の問題を考える。
本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。
我々は,そのラベルのみを用いて,あるカテゴリと他のセマンティック関連カテゴリを識別する能力を初めて示す。
論文 参考訳(メタデータ) (2024-03-31T12:48:07Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Label Selection Approach to Learning from Crowds [25.894399244406287]
Crowdsからの学習は、群衆労働者のラベル付きデータを使ってモデルを直接訓練するフレームワークである。
本稿では,選択型予測問題に対してSelectiveNetに着想を得た新しいLearning from Crowdsモデルを提案する。
提案手法の主な利点は、教師付き学習問題のほとんど全ての変種に適用できることである。
論文 参考訳(メタデータ) (2023-08-21T00:22:32Z) - Weakly Supervised 3D Point Cloud Segmentation via Multi-Prototype
Learning [37.76664203157892]
ここでの根本的な課題は、局所幾何学構造の大きなクラス内変異であり、結果として意味クラス内のサブクラスとなる。
この直感を活用し、各サブクラスの個別分類器を維持することを選択します。
我々の仮説はまた、追加アノテーションのコストを伴わずにセマンティックサブクラスの一貫した発見を前提に検証されている。
論文 参考訳(メタデータ) (2022-05-06T11:07:36Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Closing the Generalization Gap in One-Shot Object Detection [92.82028853413516]
強力な数ショット検出モデルの鍵は、高度なメトリック学習アプローチではなく、カテゴリの数をスケールすることにある。
将来的なデータアノテーションの取り組みは、より広範なデータセットに集中し、より多くのカテゴリにアノテートする必要がある。
論文 参考訳(メタデータ) (2020-11-09T09:31:17Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。