Fugu-MT 論文翻訳(概要): DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection

論文の概要: DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection

arxiv url: http://arxiv.org/abs/2406.14924v1
Date: Fri, 21 Jun 2024 07:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 14:33:07.178303
Title: DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection
Title（参考訳）: DiPEx: クラスに依存しないオブジェクト検出のためのプロンプト展開
Authors: Jia Syuen Lim, Zhuoxiao Chen, Mahsa Baktashmotlagh, Zhi Chen, Xin Yu, Zi Huang, Yadan Luo,
Abstract要約: 本研究では、視覚言語モデルを用いて、自己教師付きプロンプト学習戦略による物体検出を強化する。最初の発見は、手作業によるテキストクエリが、しばしば検出されていないオブジェクトをもたらすことを示している。本稿では,リコール率を高めるためにDiPEx(Dispersing Prompt Expansion)アプローチを提案する。
参考スコア（独自算出の注目度）: 45.56930979807214
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Class-agnostic object detection (OD) can be a cornerstone or a bottleneck for many downstream vision tasks. Despite considerable advancements in bottom-up and multi-object discovery methods that leverage basic visual cues to identify salient objects, consistently achieving a high recall rate remains difficult due to the diversity of object types and their contextual complexity. In this work, we investigate using vision-language models (VLMs) to enhance object detection via a self-supervised prompt learning strategy. Our initial findings indicate that manually crafted text queries often result in undetected objects, primarily because detection confidence diminishes when the query words exhibit semantic overlap. To address this, we propose a Dispersing Prompt Expansion (DiPEx) approach. DiPEx progressively learns to expand a set of distinct, non-overlapping hyperspherical prompts to enhance recall rates, thereby improving performance in downstream tasks such as out-of-distribution OD. Specifically, DiPEx initiates the process by self-training generic parent prompts and selecting the one with the highest semantic uncertainty for further expansion. The resulting child prompts are expected to inherit semantics from their parent prompts while capturing more fine-grained semantics. We apply dispersion losses to ensure high inter-class discrepancy among child prompts while preserving semantic consistency between parent-child prompt pairs. To prevent excessive growth of the prompt sets, we utilize the maximum angular coverage (MAC) of the semantic space as a criterion for early termination. We demonstrate the effectiveness of DiPEx through extensive class-agnostic OD and OOD-OD experiments on MS-COCO and LVIS, surpassing other prompting methods by up to 20.1% in AR and achieving a 21.3% AP improvement over SAM. The code is available at https://github.com/jason-lim26/DiPEx.
Abstract（参考訳）: クラスに依存しないオブジェクト検出(OD)は、多くの下流視覚タスクにおいて、基盤となるかボトルネックとなる可能性がある。ボトムアップや多目的発見手法の進歩により、基本的な視覚的手がかりを生かして有能な物体を識別する手法が大幅に進歩したが、オブジェクトの多様性とコンテキストの複雑さのため、常に高いリコール率を達成することは困難である。本研究では、視覚言語モデル(VLM)を用いて、自己教師付き即時学習戦略による物体検出を強化する。最初の結果から,手作業によるテキストクエリによって検出されていないオブジェクトが検出されない場合が多く,クエリワードが意味的重複を示すと,検出の信頼性が低下することがわかった。そこで本稿では,DiPEx(Dispersing Prompt Expansion)アプローチを提案する。 DiPExは徐々に、異なる非重複超球面プロンプトのセットを拡張してリコール率を高め、アウト・オブ・ディストリビューションODのような下流タスクのパフォーマンスを向上させることを学習している。具体的には、DiPExは、ジェネリック親プロンプトを自己学習し、さらなる拡張のための最もセマンティックな不確実性を持つプロンプトを選択することによって、プロセスを開始する。得られた子プロンプトは、よりきめ細かいセマンティックスをキャプチャしながら、親プロンプトからセマンティックスを継承することが期待されている。分散損失を適用して,親子間の親子間の意味的一貫性を維持しつつ,親子間の親子間差を高く抑える。プロンプト集合の過剰な成長を防止するため,セマンティック空間の最大角被覆(MAC)を早期終了の基準として利用する。本研究は,MS-COCOおよびLVISにおけるクラス非依存ODおよびOD-OD実験によるDiPExの有効性を実証し,ARの20.1%まで向上し,SAMよりも21.3%のAP改善を実現した。コードはhttps://github.com/jason-lim26/DiPExで入手できる。

関連論文リスト

WeDetect: Fast Open-Vocabulary Object Detection as Retrieval [74.39703419628829]
Open-vocabularyオブジェクト検出は、テキストプロンプトを通じて任意のクラスを検出することを目的としている。クロスモーダル融合層(ノンフュージョン)を持たない手法は、認識を検索問題として扱うことにより、より高速な推論を提供する。 WeDetectという名前のモデルファミリを開発し、推論効率の高い15ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-12-13T12:40:28Z)
Parameterized Prompt for Incremental Object Detection [40.077943384096805]
既存のプロンプトプールベースのアプローチは、インクリメンタルタスクにまたがる不整合クラスセットを前提とします。共起シナリオでは、以前のタスクからラベル付けされていないオブジェクトが現在のタスクイメージに表示され、プロンプトプールが混乱する可能性がある。本稿では,タスク間の適応的な整合性を示すために,破滅的な忘れを抑えるために,制約のある更新を施す必要があることを留意する。
論文参考訳（メタデータ） (2025-10-31T09:41:49Z)
A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T14:32:21Z)
Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models [0.0]
本稿では, 忠実な幻覚を検出するための新しい枠組みであるセマンティック・ディバージェンス・メトリックス(SDM)を紹介する。プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
論文参考訳（メタデータ） (2025-08-13T20:55:26Z)
QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection [7.030364980618468]
本稿では,セマンティックな事前情報と特徴学習を組み込んだ新しいプラグアンドプレイHOI検出フレームワークを提案する。本手法はHICO-DetおよびV-COCOベンチマーク上での最先端性能と強力な一般化を実現する。
論文参考訳（メタデータ） (2025-08-12T03:11:16Z)
DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection [39.56089737473775]
画像中のフレキシブルな数の物体を検出できるより効率的な変換器検出器DS-Detを提案する。具体的には、デコーダモデリングのための新しい統合シングルクエリパラダイムを再構成し、導入する。また,注意障害学習による簡易デコーダフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-26T05:40:04Z)
Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文参考訳（メタデータ） (2024-12-22T03:25:43Z)
CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection [6.017022924697519]
ほぼ全てのシナリオにおいて競合するCP-DETRと呼ばれる強力な普遍的検出基盤モデルを提案する。具体的には、プロンプトと視覚間の情報相互作用を強化する効率的なプロンプト視覚ハイブリッドエンコーダを設計する。テキストプロンプトに加えて、視覚プロンプトと最適化プロンプトという2つの実用的な概念プロンプト生成手法を設計した。
論文参考訳（メタデータ） (2024-12-13T02:36:29Z)
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文参考訳（メタデータ） (2024-10-01T08:16:40Z)
Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-25T07:12:51Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
USD: Unknown Sensitive Detector Empowered by Decoupled Objectness and Segment Anything Model [14.080744645704751]
Open World Object Detection (OWOD) は、新しいコンピュータビジョンタスクである。本稿では,この2つの境界の学習をデコーダ層に分割する,シンプルで効果的な学習戦略であるDecoupled Objectness Learning(DOL)を提案する。また、擬似ラベルとソフトウェイト戦略を用いてノイズの負の影響を緩和する補助的スーパービジョンフレームワーク(ASF)も導入する。
論文参考訳（メタデータ） (2023-06-04T06:42:09Z)
Boosting Weakly Supervised Object Detection using Fusion and Priors from Hallucinated Depth [33.66537809438079]
弱教師付き物体検出(WSOD)の性能向上のための増幅器手法を提案する。言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を識別するために、深さを計算します。提案手法は,最新の2つのWSOD法上に実装することで,6つのデータセットに対して評価を行う。
論文参考訳（メタデータ） (2023-03-20T08:26:29Z)
Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文参考訳（メタデータ） (2023-02-17T15:26:04Z)
Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised Semantic Segmentation [6.326017213490535]
本稿では,注目マップの逆消去の新たな定式化を提案する。提案手法はサリエンシマスクを必要とせず, 注意マップの識別対象領域への拡散を防止するために, 正規化損失を用いる。パスカルVOCデータセットを用いた実験により, 従来と比べ2.1mIoU, 1.0mIoUのセグメンテーション性能が向上することが示された。
論文参考訳（メタデータ） (2020-11-09T18:35:35Z)
Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。深部自己注意を伴う識別的近傍分類を提示する。自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文参考訳（メタデータ） (2020-10-25T00:39:32Z)
Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。 2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2020-03-18T06:11:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。