Fugu-MT 論文翻訳(概要): LP-OVOD: Open-Vocabulary Object Detection by Linear Probing

論文の概要: LP-OVOD: Open-Vocabulary Object Detection by Linear Probing

arxiv url: http://arxiv.org/abs/2310.17109v1
Date: Thu, 26 Oct 2023 02:37:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 22:33:27.849554
Title: LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
Title（参考訳）: LP-OVOD:線形探索による開語彙オブジェクト検出
Authors: Chau Pham, Truong Vu, Khoi Nguyen
Abstract要約: オブジェクト検出器は、トレーニングにおいて見知らぬクラスの例をラベル付けせずに、テストイメージ内の見えないクラスと見えないクラスの両方を識別する必要がある。 OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。オーバー・アンド・アンダー・カバーされたオブジェクト・ボックスのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。そこで我々は,低品質なボックスをトレーニングによって破棄するLP-OVODを提案する。
参考スコア（独自算出の注目度）: 9.2183115207665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the challenging problem of open-vocabulary object detection (OVOD) where an object detector must identify both seen and unseen classes in test images without labeled examples of the unseen classes in training. A typical approach for OVOD is to use joint text-image embeddings of CLIP to assign box proposals to their closest text label. However, this method has a critical issue: many low-quality boxes, such as over- and under-covered-object boxes, have the same similarity score as high-quality boxes since CLIP is not trained on exact object location information. To address this issue, we propose a novel method, LP-OVOD, that discards low-quality boxes by training a sigmoid linear classifier on pseudo labels retrieved from the top relevant region proposals to the novel text. Experimental results on COCO affirm the superior performance of our approach over the state of the art, achieving $\textbf{40.5}$ in $\text{AP}_{novel}$ using ResNet50 as the backbone and without external datasets or knowing novel classes during training. Our code will be available at https://github.com/VinAIResearch/LP-OVOD.
Abstract（参考訳）: 本稿では,オープン語彙オブジェクト検出(OVOD)の課題に対処し,未確認クラスをラベル付けせずに,対象検出器がテスト画像中の見えないクラスと見えないクラスの両方を識別する必要がある。 OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。オーバーオブジェクトボックスやアンダーカバーオブジェクトボックスなど、多くの低品質ボックスは、クリップが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質ボックスと同じ類似度スコアを持っている。この問題に対処するため,本論文では,上位領域の提案から得られた擬似ラベルに対して,シグモイド線形分類器をトレーニングすることにより,低品質ボックスを廃棄するLP-OVODを提案する。 cocoの実験結果は、最先端技術に対する我々のアプローチの優れた性能を肯定し、resnet50をバックボーンとして使用し、トレーニング中に外部データセットや新しいクラスを知らずに、$\textbf{40.5}$ in $\text{ap}_{novel}$ を達成する。私たちのコードはhttps://github.com/VinAIResearch/LP-OVOD.comで公開されます。

関連論文リスト

A Holistically Point-guided Text Framework for Weakly-Supervised Camouflaged Object Detection [23.606879684161957]
WSCOD(Wakly-Supervised Camouflaged Object Detection)は、弱いラベルを持つモデルをトレーニングする約束で人気を集めている。本稿では,WSCOD をセグメント,選択,訓練という3つのフェーズに分解することで,WSCOD のための一意的にポイントガイド付きテキストフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-10T15:17:02Z)
Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文参考訳（メタデータ） (2024-11-04T12:59:13Z)
OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision [22.493305132568477]
オープンボキャブラリ検出は、検出器が訓練された基本カテゴリを超えて、新しいカテゴリからオブジェクトを検出することを目的としている。我々はtextbfQuery トレーニングとオープンワールド textbfObjects の監督を行う textbf Open-textbfVocabulary DETR である OV-DQUO を提案する。
論文参考訳（メタデータ） (2024-05-28T07:33:27Z)
Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文参考訳（メタデータ） (2024-03-20T12:51:30Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文参考訳（メタデータ） (2022-11-02T03:38:02Z)
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文参考訳（メタデータ） (2022-07-07T17:59:56Z)
What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文参考訳（メタデータ） (2022-06-19T09:07:30Z)
Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes [74.24276505126932]
手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープンな語彙検出フレームワークを提案する。本手法は,事前学習した視覚言語モデルの局所化能力を活用して実現した。
論文参考訳（メタデータ） (2021-11-18T00:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。