論文の概要: AlignDet: Aligning Pre-training and Fine-tuning in Object Detection
- arxiv url: http://arxiv.org/abs/2307.11077v1
- Date: Thu, 20 Jul 2023 17:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 11:39:02.279135
- Title: AlignDet: Aligning Pre-training and Fine-tuning in Object Detection
- Title(参考訳): AlignDet: オブジェクト検出における事前トレーニングと微調整の調整
- Authors: Ming Li, Jie Wu, Xionghui Wang, Chen Chen, Jie Qin, Xuefeng Xiao, Rui
Wang, Min Zheng, Xin Pan
- Abstract要約: AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
- 参考スコア(独自算出の注目度): 38.356755857105796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of large-scale pre-training followed by downstream fine-tuning
has been widely employed in various object detection algorithms. In this paper,
we reveal discrepancies in data, model, and task between the pre-training and
fine-tuning procedure in existing practices, which implicitly limit the
detector's performance, generalization ability, and convergence speed. To this
end, we propose AlignDet, a unified pre-training framework that can be adapted
to various existing detectors to alleviate the discrepancies. AlignDet
decouples the pre-training process into two stages, i.e., image-domain and
box-domain pre-training. The image-domain pre-training optimizes the detection
backbone to capture holistic visual abstraction, and box-domain pre-training
learns instance-level semantics and task-aware concepts to initialize the parts
out of the backbone. By incorporating the self-supervised pre-trained
backbones, we can pre-train all modules for various detectors in an
unsupervised paradigm. As depicted in Figure 1, extensive experiments
demonstrate that AlignDet can achieve significant improvements across diverse
protocols, such as detection algorithm, model backbone, data setting, and
training schedule. For example, AlignDet improves FCOS by 5.3 mAP, RetinaNet by
2.1 mAP, Faster R-CNN by 3.3 mAP, and DETR by 2.3 mAP under fewer epochs.
- Abstract(参考訳): 大規模事前学習のパラダイムと下流の微調整は様々な物体検出アルゴリズムで広く採用されている。
本稿では,既存の手法における事前学習手順と微調整手順との間に,検出器の性能,一般化能力,収束速度を暗黙的に制限する,データ,モデル,タスクの差異を明らかにする。
この目的のために、我々は、様々な既存の検出器に適応可能な統合事前学習フレームワークであるAlignDetを提案する。
AlignDetは事前トレーニングプロセスを、イメージドメインとボックスドメイン事前トレーニングの2つのステージに分離する。
イメージドメイン事前トレーニングは検出バックボーンを最適化し、総合的な視覚的抽象化をキャプチャし、ボックスドメイン事前トレーニングはインスタンスレベルのセマンティクスとタスクアウェアの概念を学習し、バックボーンから部品を初期化する。
自己教師付きバックボーンを組み込むことで、様々な検出器のための全てのモジュールを教師なしパラダイムで事前訓練することができる。
図1に示すように、allendetが検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコルで大幅に改善できることが、広範な実験で示されています。
例えば、AlignDetはFCOSを5.3mAPで改善し、RetinaNetを2.1mAPで、R-CNNを3.3mAPで、DETRを2.3mAPで改善した。
関連論文リスト
- Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - DAP: Detection-Aware Pre-training with Weak Supervision [37.336674323981285]
本稿では,オブジェクト検出タスクに対する検出認識事前学習(DAP)アプローチを提案する。
分類データセットをクラスアクティベーションマップに基づく弱教師付きオブジェクトローカライズ手法により検出データセットに変換する。
VOCやCOCOなどの下流検出タスクにおいて,サンプル効率と収束速度の両面で,DAPが従来の事前学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-30T19:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。