論文の概要: DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection
- arxiv url: http://arxiv.org/abs/2406.14924v1
- Date: Fri, 21 Jun 2024 07:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:33:07.178303
- Title: DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection
- Title(参考訳): DiPEx: クラスに依存しないオブジェクト検出のためのプロンプト展開
- Authors: Jia Syuen Lim, Zhuoxiao Chen, Mahsa Baktashmotlagh, Zhi Chen, Xin Yu, Zi Huang, Yadan Luo,
- Abstract要約: 本研究では、視覚言語モデルを用いて、自己教師付きプロンプト学習戦略による物体検出を強化する。
最初の発見は、手作業によるテキストクエリが、しばしば検出されていないオブジェクトをもたらすことを示している。
本稿では,リコール率を高めるためにDiPEx(Dispersing Prompt Expansion)アプローチを提案する。
- 参考スコア(独自算出の注目度): 45.56930979807214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Class-agnostic object detection (OD) can be a cornerstone or a bottleneck for many downstream vision tasks. Despite considerable advancements in bottom-up and multi-object discovery methods that leverage basic visual cues to identify salient objects, consistently achieving a high recall rate remains difficult due to the diversity of object types and their contextual complexity. In this work, we investigate using vision-language models (VLMs) to enhance object detection via a self-supervised prompt learning strategy. Our initial findings indicate that manually crafted text queries often result in undetected objects, primarily because detection confidence diminishes when the query words exhibit semantic overlap. To address this, we propose a Dispersing Prompt Expansion (DiPEx) approach. DiPEx progressively learns to expand a set of distinct, non-overlapping hyperspherical prompts to enhance recall rates, thereby improving performance in downstream tasks such as out-of-distribution OD. Specifically, DiPEx initiates the process by self-training generic parent prompts and selecting the one with the highest semantic uncertainty for further expansion. The resulting child prompts are expected to inherit semantics from their parent prompts while capturing more fine-grained semantics. We apply dispersion losses to ensure high inter-class discrepancy among child prompts while preserving semantic consistency between parent-child prompt pairs. To prevent excessive growth of the prompt sets, we utilize the maximum angular coverage (MAC) of the semantic space as a criterion for early termination. We demonstrate the effectiveness of DiPEx through extensive class-agnostic OD and OOD-OD experiments on MS-COCO and LVIS, surpassing other prompting methods by up to 20.1% in AR and achieving a 21.3% AP improvement over SAM. The code is available at https://github.com/jason-lim26/DiPEx.
- Abstract(参考訳): クラスに依存しないオブジェクト検出(OD)は、多くの下流視覚タスクにおいて、基盤となるかボトルネックとなる可能性がある。
ボトムアップや多目的発見手法の進歩により、基本的な視覚的手がかりを生かして有能な物体を識別する手法が大幅に進歩したが、オブジェクトの多様性とコンテキストの複雑さのため、常に高いリコール率を達成することは困難である。
本研究では、視覚言語モデル(VLM)を用いて、自己教師付き即時学習戦略による物体検出を強化する。
最初の結果から,手作業によるテキストクエリによって検出されていないオブジェクトが検出されない場合が多く,クエリワードが意味的重複を示すと,検出の信頼性が低下することがわかった。
そこで本稿では,DiPEx(Dispersing Prompt Expansion)アプローチを提案する。
DiPExは徐々に、異なる非重複超球面プロンプトのセットを拡張してリコール率を高め、アウト・オブ・ディストリビューションODのような下流タスクのパフォーマンスを向上させることを学習している。
具体的には、DiPExは、ジェネリック親プロンプトを自己学習し、さらなる拡張のための最もセマンティックな不確実性を持つプロンプトを選択することによって、プロセスを開始する。
得られた子プロンプトは、よりきめ細かいセマンティックスをキャプチャしながら、親プロンプトからセマンティックスを継承することが期待されている。
分散損失を適用して,親子間の親子間の意味的一貫性を維持しつつ,親子間の親子間差を高く抑える。
プロンプト集合の過剰な成長を防止するため,セマンティック空間の最大角被覆(MAC)を早期終了の基準として利用する。
本研究は,MS-COCOおよびLVISにおけるクラス非依存ODおよびOD-OD実験によるDiPExの有効性を実証し,ARの20.1%まで向上し,SAMよりも21.3%のAP改善を実現した。
コードはhttps://github.com/jason-lim26/DiPExで入手できる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。
提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。
我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-25T07:12:51Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - USD: Unknown Sensitive Detector Empowered by Decoupled Objectness and
Segment Anything Model [14.080744645704751]
Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。
本稿では,この2つの境界の学習をデコーダ層に分割する,シンプルで効果的な学習戦略であるDecoupled Objectness Learning(DOL)を提案する。
また、擬似ラベルとソフトウェイト戦略を用いてノイズの負の影響を緩和する補助的スーパービジョンフレームワーク(ASF)も導入する。
論文 参考訳(メタデータ) (2023-06-04T06:42:09Z) - Boosting Weakly Supervised Object Detection using Fusion and Priors from
Hallucinated Depth [33.66537809438079]
弱教師付き物体検出(WSOD)の性能向上のための増幅器手法を提案する。
言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を識別するために、深さを計算します。
提案手法は,最新の2つのWSOD法上に実装することで,6つのデータセットに対して評価を行う。
論文 参考訳(メタデータ) (2023-03-20T08:26:29Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised
Semantic Segmentation [6.326017213490535]
本稿では,注目マップの逆消去の新たな定式化を提案する。
提案手法はサリエンシマスクを必要とせず, 注意マップの識別対象領域への拡散を防止するために, 正規化損失を用いる。
パスカルVOCデータセットを用いた実験により, 従来と比べ2.1mIoU, 1.0mIoUのセグメンテーション性能が向上することが示された。
論文 参考訳(メタデータ) (2020-11-09T18:35:35Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。