論文の概要: Sampling Bag of Views for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2412.18273v1
- Date: Tue, 24 Dec 2024 08:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:23.597339
- Title: Sampling Bag of Views for Open-Vocabulary Object Detection
- Title(参考訳): オープンボキャブラリ物体検出のためのビューのサンプリング
- Authors: Hojun Choi, Junsuk Choe, Hyunjung Shim,
- Abstract要約: より強力で効率的な構成構造をサンプリングする概念に基づくアライメント手法を提案する。
オープンボキャブラリCOCOおよびLVISベンチマークにおいて, 従来より2.6ボックスAP50と0.5マスクAPの改良を実現している。
- 参考スコア(独自算出の注目度): 22.001826330679233
- License:
- Abstract: Existing open-vocabulary object detection (OVD) develops methods for testing unseen categories by aligning object region embeddings with corresponding VLM features. A recent study leverages the idea that VLMs implicitly learn compositional structures of semantic concepts within the image. Instead of using an individual region embedding, it utilizes a bag of region embeddings as a new representation to incorporate compositional structures into the OVD task. However, this approach often fails to capture the contextual concepts of each region, leading to noisy compositional structures. This results in only marginal performance improvements and reduced efficiency. To address this, we propose a novel concept-based alignment method that samples a more powerful and efficient compositional structure. Our approach groups contextually related ``concepts'' into a bag and adjusts the scale of concepts within the bag for more effective embedding alignment. Combined with Faster R-CNN, our method achieves improvements of 2.6 box AP50 and 0.5 mask AP over prior work on novel categories in the open-vocabulary COCO and LVIS benchmarks. Furthermore, our method reduces CLIP computation in FLOPs by 80.3% compared to previous research, significantly enhancing efficiency. Experimental results demonstrate that the proposed method outperforms previous state-of-the-art models on the OVD datasets.
- Abstract(参考訳): 既存のオープン語彙オブジェクト検出(OVD)は、オブジェクト領域の埋め込みを対応するVLM特徴と整列させることで、見えないカテゴリをテストする手法を開発している。
最近の研究では、VLMは画像内の意味概念の構成構造を暗黙的に学習するという考えが活用されている。
個々の領域を埋め込む代わりに、新しい表現として領域埋め込みの袋を使い、構成構造をOVDタスクに組み込む。
しかし、このアプローチはしばしば各領域の文脈的概念を捉えることに失敗し、ノイズの多い構成構造へと繋がる。
これにより、限界性能の改善と効率の低下が実現した。
そこで本研究では,より強力で効率的な構成構造をサンプリングする概念に基づくアライメント手法を提案する。
我々のアプローチは、文脈的に関連する ``概念'' をバッグにグループ化し、バッグ内の概念のスケールを調整し、より効果的な埋め込みアライメントを実現する。
より高速なR-CNNと組み合わせることで,オープン語彙COCOとLVISベンチマークの新たなカテゴリの開発に先立って,2.6ボックスAP50と0.5マスクAPの改善を実現している。
さらに, FLOPにおけるCLIP計算を従来の研究に比べて80.3%削減し, 効率を著しく向上する。
実験結果から,提案手法は従来のOVDデータセットの最先端モデルよりも優れていることが示された。
関連論文リスト
- Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - ConvBLS: An Effective and Efficient Incremental Convolutional Broad
Learning System for Image Classification [63.49762079000726]
球状K-means(SKM)アルゴリズムと2段階マルチスケール(TSMS)機能融合に基づく畳み込み広範学習システム(ConvBLS)を提案する。
提案手法は前代未聞の効率的かつ効果的である。
論文 参考訳(メタデータ) (2023-04-01T04:16:12Z) - Aligning Bag of Regions for Open-Vocabulary Object Detection [74.89762864838042]
本稿では,各地域を超えて,各地域のバッグを埋め込む方法を提案する。
提案手法は,バッグとしてコンテキスト的相互関連領域をグループ化する。
オープンボキャブラリCOCOとLVISベンチマークの新たなカテゴリでは,従来の4.6ボックスAP50と2.8マスクAPよりも優れている。
論文 参考訳(メタデータ) (2023-02-27T17:39:21Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z) - Revisiting The Evaluation of Class Activation Mapping for
Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。
説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文 参考訳(メタデータ) (2021-04-20T21:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。