論文の概要: Fine-Grained Open-Vocabulary Object Recognition via User-Guided Segmentation
- arxiv url: http://arxiv.org/abs/2411.15620v1
- Date: Sat, 23 Nov 2024 18:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:04.897305
- Title: Fine-Grained Open-Vocabulary Object Recognition via User-Guided Segmentation
- Title(参考訳): ユーザガイドセグメンテーションによる細粒度オープンボキャブラリ物体認識
- Authors: Jinwoo Ahn, Hyeokjoon Kwon, Hwiyeon Yoo,
- Abstract要約: FOCUS: ユーザガイドによるきめ細かいオープン語彙オブジェクト認識。
FOCUSと呼ばれる新しい基礎モデルに基づく検出手法を提案する。
- 参考スコア(独自算出の注目度): 1.590984668118904
- License:
- Abstract: Recent advent of vision-based foundation models has enabled efficient and high-quality object detection at ease. Despite the success of previous studies, object detection models face limitations on capturing small components from holistic objects and taking user intention into account. To address these challenges, we propose a novel foundation model-based detection method called FOCUS: Fine-grained Open-Vocabulary Object ReCognition via User-Guided Segmentation. FOCUS merges the capabilities of vision foundation models to automate open-vocabulary object detection at flexible granularity and allow users to directly guide the detection process via natural language. It not only excels at identifying and locating granular constituent elements but also minimizes unnecessary user intervention yet grants them significant control. With FOCUS, users can make explainable requests to actively guide the detection process in the intended direction. Our results show that FOCUS effectively enhances the detection capabilities of baseline models and shows consistent performance across varying object types.
- Abstract(参考訳): 近年の視覚ベース基礎モデルの出現により、効率よく高品質な物体検出が可能になった。
従来の研究の成功にもかかわらず、オブジェクト検出モデルは、全体論的なオブジェクトから小さなコンポーネントを捕捉し、ユーザの意図を考慮に入れてしまうという制限に直面している。
これらの課題に対処するために,ユーザガイドセグメンテーションによるFOCUS: きめ細かいオープン語彙オブジェクト認識手法を提案する。
FOCUSは視覚基盤モデルの機能を統合し、オープン語彙オブジェクト検出を柔軟な粒度で自動化し、ユーザーが自然言語で直接検出プロセスをガイドできるようにする。
粒状要素の識別と位置決めに優れるだけでなく、不要なユーザの介入を最小限に抑えつつも、かなりの制御を可能にする。
FOCUSを使用すると、ユーザは意図した方向に検出プロセスを積極的にガイドする説明可能なリクエストを作成できる。
この結果から,FOCUSはベースラインモデルの検出能力を効果的に向上し,様々なオブジェクトタイプに対して一貫した性能を示すことがわかった。
関連論文リスト
- Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - Boosting Open-Vocabulary Object Detection by Handling Background Samples [9.07525578809556]
背景サンプルの処理におけるCLIPの限界に対処する新しい手法を提案する。
本稿では,部分的領域を前景として誤分類する問題に対処するために,部分的オブジェクト抑圧(POS)を導入する。
提案手法は,様々な開語彙検出器の性能向上を実現することができる。
論文 参考訳(メタデータ) (2024-10-11T09:15:50Z) - Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - SalienDet: A Saliency-based Feature Enhancement Algorithm for Object
Detection for Autonomous Driving [160.57870373052577]
未知の物体を検出するために,サリエンデット法(SalienDet)を提案する。
我々のSaienDetは、オブジェクトの提案生成のための画像機能を強化するために、サリエンシに基づくアルゴリズムを利用している。
オープンワールド検出を実現するためのトレーニングサンプルセットにおいて、未知のオブジェクトをすべてのオブジェクトと区別するためのデータセットレザベリングアプローチを設計する。
論文 参考訳(メタデータ) (2023-05-11T16:19:44Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。