論文の概要: Exploration of visual prompt in Grounded pre-trained open-set detection
- arxiv url: http://arxiv.org/abs/2312.08839v1
- Date: Thu, 14 Dec 2023 11:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:48:49.548414
- Title: Exploration of visual prompt in Grounded pre-trained open-set detection
- Title(参考訳): 接地訓練オープンセット検出における視覚的プロンプトの探索
- Authors: Qibo Chen, Weizhong Jin, Shuchang Li, Mengdi Liu, Li Yu, Jian Jiang,
Xiaozheng Wang
- Abstract要約: いくつかのラベル付き画像から新しいカテゴリ知識を学習する新しい視覚的プロンプト手法を提案する。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.560519631555968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text prompts are crucial for generalizing pre-trained open-set object
detection models to new categories. However, current methods for text prompts
are limited as they require manual feedback when generalizing to new
categories, which restricts their ability to model complex scenes, often
leading to incorrect detection results. To address this limitation, we propose
a novel visual prompt method that learns new category knowledge from a few
labeled images, which generalizes the pre-trained detection model to the new
category. To allow visual prompts to represent new categories adequately, we
propose a statistical-based prompt construction module that is not limited by
predefined vocabulary lengths, thus allowing more vectors to be used when
representing categories. We further utilize the category dictionaries in the
pre-training dataset to design task-specific similarity dictionaries, which
make visual prompts more discriminative. We evaluate the method on the ODinW
dataset and show that it outperforms existing prompt learning methods and
performs more consistently in combinatorial inference.
- Abstract(参考訳): テキストプロンプトは、訓練済みのオープンセットオブジェクト検出モデルを新しいカテゴリに一般化するために重要である。
しかし、テキストプロンプトの現在の方法は、新しいカテゴリに一般化する際に手動のフィードバックを必要とするため、複雑なシーンをモデル化する能力を制限するため、しばしば誤った検出結果をもたらす。
この制限に対処するため,いくつかのラベル付き画像から新たなカテゴリ知識を学習し,事前学習された検出モデルを新しいカテゴリに一般化する視覚的プロンプト手法を提案する。
視覚的プロンプトが新しいカテゴリを適切に表現できるようにするために,事前に定義された語彙長に制限されない統計ベースのプロンプト構成モジュールを提案する。
さらに,事前学習データセットのカテゴリ辞書を用いてタスク固有の類似度辞書の設計を行い,視覚的プロンプトの識別性を高める。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法より優れ,組合せ推論においてより一貫した性能を示す。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文 参考訳(メタデータ) (2024-06-21T18:00:05Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Novel Class Discovery without Forgetting [72.52222295216062]
我々は NCDwF: Novel Class Discovery without Forgetting の新たな実用的問題設定を特定し,定式化する。
ラベルのないデータから新しいカテゴリのインスタンスを段階的に発見する機械学習モデルを提案する。
CIFAR-10, CIFAR-100, ImageNet-1000に基づく実験プロトコルを導入し, 知識保持と新しいクラス発見のトレードオフを測定する。
論文 参考訳(メタデータ) (2022-07-21T17:54:36Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Ultra-fine Entity Typing with Indirect Supervision from Natural Language
Inference [28.78215056129358]
この研究は、エンティティ型付けを自然言語推論(NLI)問題として定式化する新しいアプローチであるLITEを提示する。
実験により、LITEは訓練データに制限があるため、UFETタスクにおける最先端のパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-02-12T23:56:26Z) - Semi-supervised New Event Type Induction and Description via Contrastive
Loss-Enforced Batch Attention [56.46649994444616]
マスク付きコントラスト損失を用いた半教師付き新しいイベント型誘導手法を提案する。
私たちは、発見したクラスタの型名を予測し、FrameNetフレームにリンクするという、2つの新しいタスクにアプローチを拡張しました。
論文 参考訳(メタデータ) (2022-02-12T00:32:22Z) - Closing the Generalization Gap in One-Shot Object Detection [92.82028853413516]
強力な数ショット検出モデルの鍵は、高度なメトリック学習アプローチではなく、カテゴリの数をスケールすることにある。
将来的なデータアノテーションの取り組みは、より広範なデータセットに集中し、より多くのカテゴリにアノテートする必要がある。
論文 参考訳(メタデータ) (2020-11-09T09:31:17Z) - Few-Shot Object Detection via Knowledge Transfer [21.3564383157159]
オブジェクト検出の従来の方法は、通常かなりの量のトレーニングデータと注釈付きバウンディングボックスを必要とする。
本稿では,いくつかの学習例からオブジェクトを検出することを目的とした,知識伝達によるオブジェクト検出について紹介する。
論文 参考訳(メタデータ) (2020-08-28T06:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。