論文の概要: Taming Self-Training for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2308.06412v2
- Date: Sat, 30 Dec 2023 00:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:58:00.191366
- Title: Taming Self-Training for Open-Vocabulary Object Detection
- Title(参考訳): オープンボキャブラリー物体検出のための自己学習
- Authors: Shiyu Zhao, Samuel Schulter, Long Zhao, Zhixing Zhang, Vijay Kumar
B.G, Yumin Suh, Manmohan Chandraker, Dimitris N. Metaxas
- Abstract要約: オープン語彙オブジェクト検出(OVD)のための自動学習のためのSAS-Detを提案する。
本稿では,標準検出をオープンブランチとクローズブランチに分割するスプリット・アンド・フュージョン(SAF)ヘッドを提案する。
閉集合タスクとは違って,OVDのPL分布は教師モデルによってのみ決定されるため,教師への更新回数を削減し,PL分布の変化頻度を減少させる定期的な更新戦略を導入する。
- 参考スコア(独自算出の注目度): 87.42943544704232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown promising performance in open-vocabulary object
detection (OVD) by utilizing pseudo labels (PLs) from pretrained vision and
language models (VLMs). However, teacher-student self-training, a powerful and
widely used paradigm to leverage PLs, is rarely explored for OVD. This work
identifies two challenges of using self-training in OVD: noisy PLs from VLMs
and frequent distribution changes of PLs. To address these challenges, we
propose SAS-Det that tames self-training for OVD from two key perspectives.
First, we present a split-and-fusion (SAF) head that splits a standard
detection into an open-branch and a closed-branch. This design can reduce noisy
supervision from pseudo boxes. Moreover, the two branches learn complementary
knowledge from different training data, significantly enhancing performance
when fused together. Second, in our view, unlike in closed-set tasks, the PL
distributions in OVD are solely determined by the teacher model. We introduce a
periodic update strategy to decrease the number of updates to the teacher,
thereby decreasing the frequency of changes in PL distributions, which
stabilizes the training process. Extensive experiments demonstrate SAS-Det is
both efficient and effective. SAS-Det outperforms recent models of the same
scale by a clear margin and achieves 37.4 AP50 and 29.1 APr on novel categories
of the COCO and LVIS benchmarks, respectively.
- Abstract(参考訳): 近年の研究では、事前学習された視覚と言語モデル(VLM)から擬似ラベル(PL)を活用することにより、オープン語彙オブジェクト検出(OVD)において有望な性能を示した。
しかし、PLを活用するために強力で広く利用されている教師学生の自己学習は、OVDではめったに行われない。
本研究は, VLMからのノイズの多いPLとPLの頻繁な分布変化という,OVDにおける自己学習の2つの課題を明らかにする。
これらの課題に対処するために,2つの重要な視点からOVDの自己学習を行うSAS-Detを提案する。
まず,標準検出をオープンブランチとクローズドブランチに分割したsaf(slit-and-fusion)ヘッドを提案する。
この設計は疑似ボックスからのノイズの監視を減らすことができる。
さらに、異なる訓練データから相補的知識を学習し、融合時の性能を著しく向上させる。
第二に、閉集合タスクとは異なり、OVDにおけるPL分布は教師モデルによってのみ決定される。
本稿では,教師の更新回数を減らすための定期的な更新戦略を導入し,pl分布の変化頻度を減少させ,学習過程を安定化させる。
SAS-Detは効率的かつ効果的である。
SAS-Detは、COCOとLVISのベンチマークでそれぞれ37.4 AP50と29.1 APrを達成した。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - FedUV: Uniformity and Variance for Heterogeneous Federated Learning [5.9330433627374815]
フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。
最近の研究によると、ネットワークの最終層が局所バイアスの傾向が最も大きいためである。
凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。
論文 参考訳(メタデータ) (2024-02-27T15:53:15Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - DISCO: Distilling Counterfactuals with Large Language Models [39.86500142612947]
対実的に強化されたデータで訓練されたモデルは、タスクの因果構造の表現を学習する。
高品質のカウンターファクトデータはほとんどのタスクに乏しく、大規模に生成するのは容易ではない。
DISCOは,大規模に高品質な対実データを自動的に生成する新しい手法である。
論文 参考訳(メタデータ) (2022-12-20T18:46:08Z) - Continuous Pseudo-Labeling from the Start [29.472472683376115]
自己学習(ST)は、ラベルのないデータを活用することに成功し、自動音声認識(ASR)コミュニティに大きな関心を呼んだ。
ASRにおける学習過程において,PLの進化を動的に制御することで,これを実現できることを示す。
論文 参考訳(メタデータ) (2022-10-17T03:04:06Z) - Sylph: A Hypernetwork Framework for Incremental Few-shot Object
Detection [8.492340530784697]
大量のデータを含む多くの基本カテゴリがメタトレーニングに利用できる場合、ファネチューンフリーのiFSDは極めて有効であることを示す。
我々はCOCOとLVISの両方でモデルをベンチマークし、LVISの長テールレアクラスで最大17%のAPを報告した。
論文 参考訳(メタデータ) (2022-03-25T20:39:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。
ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。
TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文 参考訳(メタデータ) (2021-03-03T11:18:43Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。