論文の概要: Aligned Unsupervised Pretraining of Object Detectors with Self-training
- arxiv url: http://arxiv.org/abs/2307.15697v2
- Date: Sun, 7 Jul 2024 10:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 03:38:37.215944
- Title: Aligned Unsupervised Pretraining of Object Detectors with Self-training
- Title(参考訳): 自己学習による物体検出器の教師なし事前訓練
- Authors: Ioannis Maniadis Metaxas, Adrian Bulat, Ioannis Patras, Brais Martinez, Georgios Tzimiropoulos,
- Abstract要約: 物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
- 参考スコア(独自算出の注目度): 41.03780087924593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unsupervised pretraining of object detectors has recently become a key component of object detector training, as it leads to improved performance and faster convergence during the supervised fine-tuning stage. Existing unsupervised pretraining methods, however, typically rely on low-level information to define proposals that are used to train the detector. Furthermore, in the absence of class labels for these proposals, an auxiliary loss is used to add high-level semantics. This results in complex pipelines and a task gap between the pretraining and the downstream task. We propose a framework that mitigates this issue and consists of three simple yet key ingredients: (i) richer initial proposals that do encode high-level semantics, (ii) class pseudo-labeling through clustering, that enables pretraining using a standard object detection training pipeline, (iii) self-training to iteratively improve and enrich the object proposals. Once the pretraining and downstream tasks are aligned, a simple detection pipeline without further bells and whistles can be directly used for pretraining and, in fact, results in state-of-the-art performance on both the full and low data regimes, across detector architectures and datasets, by significant margins. We further show that our pretraining strategy is also capable of pretraining from scratch (including the backbone) and works on complex images like COCO, paving the path for unsupervised representation learning using object detection directly as a pretext task.
- Abstract(参考訳): 対象検出器の非教師なし事前訓練は、教師付き微調整段階における性能の向上とより高速な収束をもたらすため、近年、対象検出器訓練の重要な要素となっている。
しかし、既存の教師なし事前訓練法は通常、検出器の訓練に使用される提案を定義するために、低レベルの情報に依存している。
さらに、これらの提案に対するクラスラベルがない場合には、高レベルのセマンティクスを追加するために補助的な損失が使用される。
その結果、複雑なパイプラインと、事前トレーニングと下流タスクの間のタスクギャップが発生します。
この問題を緩和し,3つの単純かつ重要な要素からなる枠組みを提案する。
(i)ハイレベルなセマンティクスをエンコードするよりリッチな初期提案。
(ii)標準オブジェクト検出トレーニングパイプラインを使用した事前トレーニングを可能にするクラスタリングによるクラス擬似ラベル化。
三 自己学習により、対象の提案を反復的に改善し、充実させること。
事前トレーニングと下流タスクが整列されると、さらなるベルやホイッスルのない単純な検出パイプラインが事前トレーニングに直接使用でき、実際に、検出アーキテクチャとデータセット間で、フルデータとローデータの両方で、最先端のパフォーマンスが大幅に向上する。
さらに,我々の事前学習戦略は,スクラッチ(背骨を含む)からの事前学習も可能であり,COCOのような複雑な画像に取り組んでおり,対象検出を直接プリテキストタスクとする教師なし表現学習の道を開いた。
関連論文リスト
- AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文 参考訳(メタデータ) (2023-07-20T17:55:14Z) - Focusing on what to decode and what to train: Efficient Training with
HOI Split Decoders and Specific Target Guided DeNoising [17.268302302974607]
近年の1段変圧器を用いた手法は,DETRの検出を利用して,人物体間相互作用検出(HOI)タスクにおいて顕著な利得を達成している。
対象デコーダ,オブジェクトデコーダ,動詞デコーダで構成される新しいワンステージフレームワーク(SOV)を提案する。
本稿では,学習可能なオブジェクトと動詞ラベルの埋め込みを活用して学習指導を指導し,学習の収束を加速する,特定目標指導(STG)訓練戦略を提案する。
論文 参考訳(メタデータ) (2023-07-05T13:42:31Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - DETReg: Unsupervised Pretraining with Region Priors for Object Detection [103.93533951746612]
DETRegは、オブジェクト検出ネットワーク全体を事前トレーニングする、新しい自己教師型メソッドである。
事前トレーニング中、DETRegはオブジェクトのローカライゼーションを予測し、教師なしのリージョン提案ジェネレータからのローカライゼーションにマッチする。
対応する機能埋め込みと、自己教師付きイメージエンコーダからの埋め込みを同時に調整する。
論文 参考訳(メタデータ) (2021-06-08T17:39:14Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - DAP: Detection-Aware Pre-training with Weak Supervision [37.336674323981285]
本稿では,オブジェクト検出タスクに対する検出認識事前学習(DAP)アプローチを提案する。
分類データセットをクラスアクティベーションマップに基づく弱教師付きオブジェクトローカライズ手法により検出データセットに変換する。
VOCやCOCOなどの下流検出タスクにおいて,サンプル効率と収束速度の両面で,DAPが従来の事前学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-30T19:48:30Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。