論文の概要: Improving Pseudo Labels for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2308.06412v1
- Date: Fri, 11 Aug 2023 23:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:33:47.294171
- Title: Improving Pseudo Labels for Open-Vocabulary Object Detection
- Title(参考訳): 開語彙オブジェクト検出のための擬似ラベルの改良
- Authors: Shiyu Zhao, Samuel Schulter, Long Zhao, Zhixing Zhang, Vijay Kumar
B.G, Yumin Suh, Manmohan Chandraker, Dimitris N. Metaxas
- Abstract要約: オンライン自己学習とOVD(SAS-Det)用スプリット・アンド・フュージョンヘッド
オンライン自己学習とOVD用スプリット&フュージョンヘッド(SAS-Det)
擬似ラベリングは従来の3倍高速である。
- 参考スコア(独自算出の注目度): 87.42943544704232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show promising performance in open-vocabulary object detection
(OVD) using pseudo labels (PLs) from pretrained vision and language models
(VLMs). However, PLs generated by VLMs are extremely noisy due to the gap
between the pretraining objective of VLMs and OVD, which blocks further
advances on PLs. In this paper, we aim to reduce the noise in PLs and propose a
method called online Self-training And a Split-and-fusion head for OVD
(SAS-Det). First, the self-training finetunes VLMs to generate high quality PLs
while prevents forgetting the knowledge learned in the pretraining. Second, a
split-and-fusion (SAF) head is designed to remove the noise in localization of
PLs, which is usually ignored in existing methods. It also fuses complementary
knowledge learned from both precise ground truth and noisy pseudo labels to
boost the performance. Extensive experiments demonstrate SAS-Det is both
efficient and effective. Our pseudo labeling is 3 times faster than prior
methods. SAS-Det outperforms prior state-of-the-art models of the same scale by
a clear margin and achieves 37.4 AP$_{50}$ and 27.3 AP$_r$ on novel categories
of the COCO and LVIS benchmarks, respectively.
- Abstract(参考訳): 近年の研究では、事前学習された視覚と言語モデル(VLM)から擬似ラベル(PL)を用いたオープン語彙オブジェクト検出(OVD)において有望な性能を示す。
しかしながら, VLM が生成する PL は, PL のさらなる進歩を阻害する VLM と OVD の事前学習目標とのギャップのため, 非常にうるさい。
本稿では,plsの騒音低減を目的として,オンライン自己学習とovdのための分割・融合ヘッド(sas-det)を提案する。
第一に、自己学習ファインチューンVLMは高品質なPLを生成し、事前学習で学んだ知識を忘れないようにする。
第2に、saf(slit-and-fusion)ヘッドはplsの局在におけるノイズを除去するように設計されている。
また、正確な根拠の真理と騒がしい偽のラベルの両方から学んだ補完的な知識を融合してパフォーマンスを高めている。
SAS-Detは効率的かつ効果的である。
擬似ラベリングは、以前のメソッドの3倍高速です。
sas-detは、同じスケールの以前の最先端モデルを明確なマージンで上回り、cocoベンチマークとlvisベンチマークでそれぞれ37.4 ap$_{50}$と27.3 ap$_r$を達成した。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - FedUV: Uniformity and Variance for Heterogeneous Federated Learning [5.9330433627374815]
フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。
最近の研究によると、ネットワークの最終層が局所バイアスの傾向が最も大きいためである。
凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。
論文 参考訳(メタデータ) (2024-02-27T15:53:15Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - DISCO: Distilling Counterfactuals with Large Language Models [39.86500142612947]
対実的に強化されたデータで訓練されたモデルは、タスクの因果構造の表現を学習する。
高品質のカウンターファクトデータはほとんどのタスクに乏しく、大規模に生成するのは容易ではない。
DISCOは,大規模に高品質な対実データを自動的に生成する新しい手法である。
論文 参考訳(メタデータ) (2022-12-20T18:46:08Z) - Continuous Pseudo-Labeling from the Start [29.472472683376115]
自己学習(ST)は、ラベルのないデータを活用することに成功し、自動音声認識(ASR)コミュニティに大きな関心を呼んだ。
ASRにおける学習過程において,PLの進化を動的に制御することで,これを実現できることを示す。
論文 参考訳(メタデータ) (2022-10-17T03:04:06Z) - Sylph: A Hypernetwork Framework for Incremental Few-shot Object
Detection [8.492340530784697]
大量のデータを含む多くの基本カテゴリがメタトレーニングに利用できる場合、ファネチューンフリーのiFSDは極めて有効であることを示す。
我々はCOCOとLVISの両方でモデルをベンチマークし、LVISの長テールレアクラスで最大17%のAPを報告した。
論文 参考訳(メタデータ) (2022-03-25T20:39:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。