論文の概要: VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object
Detection with Vision-Language Model
- arxiv url: http://arxiv.org/abs/2403.05346v1
- Date: Fri, 8 Mar 2024 14:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:26:19.967749
- Title: VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object
Detection with Vision-Language Model
- Title(参考訳): VLM-PL:視覚言語モデルを用いたクラスインクリメンタルオブジェクト検出手法
- Authors: Junsu Kim, Yunhoe Ku, Jihyeon Kim, Junuk Cha, Seungryul Baek
- Abstract要約: VLM-PL(Vision-Language Model Assisted Pseudo-Labeling)を紹介する。
この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。
VLM-PLは改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。
- 参考スコア(独自算出の注目度): 9.78713756452171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of Class Incremental Object Detection (CIOD), creating models
that can continuously learn like humans is a major challenge. Pseudo-labeling
methods, although initially powerful, struggle with multi-scenario incremental
learning due to their tendency to forget past knowledge. To overcome this, we
introduce a new approach called Vision-Language Model assisted Pseudo-Labeling
(VLM-PL). This technique uses Vision-Language Model (VLM) to verify the
correctness of pseudo ground-truths (GTs) without requiring additional model
training. VLM-PL starts by deriving pseudo GTs from a pre-trained detector.
Then, we generate custom queries for each pseudo GT using carefully designed
prompt templates that combine image and text features. This allows the VLM to
classify the correctness through its responses. Furthermore, VLM-PL integrates
refined pseudo and real GTs from upcoming training, effectively combining new
and old knowledge. Extensive experiments conducted on the Pascal VOC and MS
COCO datasets not only highlight VLM-PL's exceptional performance in
multi-scenario but also illuminate its effectiveness in dual-scenario by
achieving state-of-the-art results in both.
- Abstract(参考訳): クラスインクリメンタルオブジェクト検出(CIOD)の分野では、人間のように継続的に学習できるモデルを作成することが大きな課題である。
擬似ラベル法は、当初は強力だったが、過去の知識を忘れてしまう傾向があるため、多段階的学習に苦しむ。
これを解決するために,視覚言語モデルを用いた擬似ラベリング(VLM-PL)を提案する。
この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。
VLM-PLは、事前訓練された検出器から擬似GTを誘導することから始まる。
そして,画像とテキストの機能を組み合わせたプロンプトテンプレートを用いて,擬似GT毎にカスタムクエリを生成する。
これにより、VLMは応答によって正しさを分類できる。
さらに、VLM-PLは、今後のトレーニングから改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。
Pascal VOCとMS COCOデータセットで実施された大規模な実験は、マルチシナリオにおけるVLM-PLの例外的な性能を強調しただけでなく、両者で最先端の結果を得ることによって、デュアルシナリオにおけるその効果を照らしている。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Active Prompt Learning in Vision Language Models [21.276006224504748]
我々は,PCBと表記される事前学習型視覚言語モデルのための新しいアクティブラーニングフレームワークを考案した。
そこで本研究では,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超えることを示した。
論文 参考訳(メタデータ) (2023-11-18T22:42:16Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。