論文の概要: Exploration of visual prompt in Grounded pre-trained open-set detection
- arxiv url: http://arxiv.org/abs/2312.08839v1
- Date: Thu, 14 Dec 2023 11:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:48:49.548414
- Title: Exploration of visual prompt in Grounded pre-trained open-set detection
- Title(参考訳): 接地訓練オープンセット検出における視覚的プロンプトの探索
- Authors: Qibo Chen, Weizhong Jin, Shuchang Li, Mengdi Liu, Li Yu, Jian Jiang,
Xiaozheng Wang
- Abstract要約: いくつかのラベル付き画像から新しいカテゴリ知識を学習する新しい視覚的プロンプト手法を提案する。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.560519631555968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text prompts are crucial for generalizing pre-trained open-set object
detection models to new categories. However, current methods for text prompts
are limited as they require manual feedback when generalizing to new
categories, which restricts their ability to model complex scenes, often
leading to incorrect detection results. To address this limitation, we propose
a novel visual prompt method that learns new category knowledge from a few
labeled images, which generalizes the pre-trained detection model to the new
category. To allow visual prompts to represent new categories adequately, we
propose a statistical-based prompt construction module that is not limited by
predefined vocabulary lengths, thus allowing more vectors to be used when
representing categories. We further utilize the category dictionaries in the
pre-training dataset to design task-specific similarity dictionaries, which
make visual prompts more discriminative. We evaluate the method on the ODinW
dataset and show that it outperforms existing prompt learning methods and
performs more consistently in combinatorial inference.
- Abstract(参考訳): テキストプロンプトは、訓練済みのオープンセットオブジェクト検出モデルを新しいカテゴリに一般化するために重要である。
しかし、テキストプロンプトの現在の方法は、新しいカテゴリに一般化する際に手動のフィードバックを必要とするため、複雑なシーンをモデル化する能力を制限するため、しばしば誤った検出結果をもたらす。
この制限に対処するため,いくつかのラベル付き画像から新たなカテゴリ知識を学習し,事前学習された検出モデルを新しいカテゴリに一般化する視覚的プロンプト手法を提案する。
視覚的プロンプトが新しいカテゴリを適切に表現できるようにするために,事前に定義された語彙長に制限されない統計ベースのプロンプト構成モジュールを提案する。
さらに,事前学習データセットのカテゴリ辞書を用いてタスク固有の類似度辞書の設計を行い,視覚的プロンプトの識別性を高める。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法より優れ,組合せ推論においてより一貫した性能を示す。
関連論文リスト
- XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models [48.37786467926044]
ラベル固有のプロンプトを階層的に生成する。
我々は視覚知識と画像とそれに対応するプロンプトを最適輸送下でパッチやトークンセットとして意味的に正規化する。
提案手法は,インスタンス条件付きプロンプトを生成して一般化性を向上させる条件付きケースに容易に拡張できる。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Novel Class Discovery without Forgetting [72.52222295216062]
我々は NCDwF: Novel Class Discovery without Forgetting の新たな実用的問題設定を特定し,定式化する。
ラベルのないデータから新しいカテゴリのインスタンスを段階的に発見する機械学習モデルを提案する。
CIFAR-10, CIFAR-100, ImageNet-1000に基づく実験プロトコルを導入し, 知識保持と新しいクラス発見のトレードオフを測定する。
論文 参考訳(メタデータ) (2022-07-21T17:54:36Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Ultra-fine Entity Typing with Indirect Supervision from Natural Language
Inference [28.78215056129358]
この研究は、エンティティ型付けを自然言語推論(NLI)問題として定式化する新しいアプローチであるLITEを提示する。
実験により、LITEは訓練データに制限があるため、UFETタスクにおける最先端のパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-02-12T23:56:26Z) - Semi-supervised New Event Type Induction and Description via Contrastive
Loss-Enforced Batch Attention [56.46649994444616]
マスク付きコントラスト損失を用いた半教師付き新しいイベント型誘導手法を提案する。
私たちは、発見したクラスタの型名を予測し、FrameNetフレームにリンクするという、2つの新しいタスクにアプローチを拡張しました。
論文 参考訳(メタデータ) (2022-02-12T00:32:22Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Closing the Generalization Gap in One-Shot Object Detection [92.82028853413516]
強力な数ショット検出モデルの鍵は、高度なメトリック学習アプローチではなく、カテゴリの数をスケールすることにある。
将来的なデータアノテーションの取り組みは、より広範なデータセットに集中し、より多くのカテゴリにアノテートする必要がある。
論文 参考訳(メタデータ) (2020-11-09T09:31:17Z) - Few-Shot Object Detection via Knowledge Transfer [21.3564383157159]
オブジェクト検出の従来の方法は、通常かなりの量のトレーニングデータと注釈付きバウンディングボックスを必要とする。
本稿では,いくつかの学習例からオブジェクトを検出することを目的とした,知識伝達によるオブジェクト検出について紹介する。
論文 参考訳(メタデータ) (2020-08-28T06:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。