論文の概要: Open-Vocabulary Object Detection via Neighboring Region Attention Alignment
- arxiv url: http://arxiv.org/abs/2405.08593v1
- Date: Tue, 14 May 2024 13:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:59:04.694178
- Title: Open-Vocabulary Object Detection via Neighboring Region Attention Alignment
- Title(参考訳): 隣接領域アテンションアライメントによるオープンボキャブラリ物体検出
- Authors: Sunyuan Qiang, Xianfei Li, Yanyan Liang, Wenlong Liao, Tao He, Pai Peng,
- Abstract要約: 近隣地域アテンションアライメント(NRAA)は、隣接する地域の集合の注意機構内でアライメントを行い、オープン語彙推論を促進する。
提案手法は,オープン語彙ベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 16.171587416088215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The nature of diversity in real-world environments necessitates neural network models to expand from closed category settings to accommodate novel emerging categories. In this paper, we study the open-vocabulary object detection (OVD), which facilitates the detection of novel object classes under the supervision of only base annotations and open-vocabulary knowledge. However, we find that the inadequacy of neighboring relationships between regions during the alignment process inevitably constrains the performance on recent distillation-based OVD strategies. To this end, we propose Neighboring Region Attention Alignment (NRAA), which performs alignment within the attention mechanism of a set of neighboring regions to boost the open-vocabulary inference. Specifically, for a given proposal region, we randomly explore the neighboring boxes and conduct our proposed neighboring region attention (NRA) mechanism to extract relationship information. Then, this interaction information is seamlessly provided into the distillation procedure to assist the alignment between the detector and the pre-trained vision-language models (VLMs). Extensive experiments validate that our proposed model exhibits superior performance on open-vocabulary benchmarks.
- Abstract(参考訳): 現実世界の環境における多様性の性質は、ニューラルネットワークモデルがクローズドなカテゴリ設定から新しいカテゴリに対応するために拡張する必要がある。
本稿では,オープン・ボキャブラリ・オブジェクト検出(OVD)について検討し,ベースアノテーションとオープン・ボキャブラリ知識のみの監督の下で,新しいオブジェクト・クラスの検出を容易にする。
しかし、アライメント過程における地域間の隣接関係の不適切さは、最近の蒸留によるOVD戦略における性能を必然的に制約することを発見した。
そこで本研究では,近隣地域のアテンション機構内でアライメントを行い,オープン語彙推論を向上する近隣地域のアライメントアライメント(NRAA)を提案する。
具体的には、ある提案領域に対して、ランダムに隣のボックスを探索し、提案する隣のエリアアテンション(NRA)機構を用いて関係情報を抽出する。
そして、この相互作用情報を蒸留工程にシームレスに提供し、検出器と予め訓練された視覚言語モデル(VLM)とのアライメントを支援する。
大規模な実験により,提案モデルがオープン語彙ベンチマークにおいて優れた性能を示すことを確認した。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision [22.493305132568477]
オープンボキャブラリ検出は、検出器が訓練された基本カテゴリを超えて、新しいカテゴリからオブジェクトを検出することを目的としている。
我々はtextbfQuery トレーニングとオープンワールド textbfObjects の監督を行う textbf Open-textbfVocabulary DETR である OV-DQUO を提案する。
論文 参考訳(メタデータ) (2024-05-28T07:33:27Z) - Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation [3.0899016152680754]
Open-vocabulary Object Detection (OVOD) は、訓練時に見えない新しいクラスから視覚オブジェクトをローカライズし、認識することを目的としている。
本稿では,この問題を2段階のOVODパラダイムを用いて体系的に検討する。
この問題を軽減するために, 信頼度を調整し, 誤って削除対象を保存するための2つの高度な対策を提案する。
論文 参考訳(メタデータ) (2024-04-12T17:02:56Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Contextually Affinitive Neighborhood Refinery for Deep Clustering [13.48547883315848]
本研究では,より情報に富む近隣住民をコラボニティブ(ConAff)地区で探索する効率的なオンライン・リランク・プロセスを提案する。
提案手法は,汎用的な自己教師型フレームワークに容易に組み込むことができ,いくつかの一般的なベンチマークにおいて最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-12T23:56:51Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - ROIFormer: Semantic-Aware Region of Interest Transformer for Efficient
Self-Supervised Monocular Depth Estimation [6.923035780685481]
幾何認識表現強調のための効率的な局所適応アダプティブアテンション手法を提案する。
意味情報からの幾何学的手がかりを利用して局所適応的境界ボックスを学習し、教師なし特徴集合を導出する。
提案手法は, 自己教師型単分子深度推定タスクにおける新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-12-12T06:38:35Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - DIRV: Dense Interaction Region Voting for End-to-End Human-Object
Interaction Detection [53.40028068801092]
本稿では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法を提案する。
従来の手法とは異なり,本手法は人-物対ごとに異なるスケールにわたる密集した相互作用領域に焦点をあてる。
単一相互作用領域の検出欠陥を補うために,我々は新しい投票戦略を導入する。
論文 参考訳(メタデータ) (2020-10-02T13:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。