論文の概要: LLM-Guided Agentic Object Detection for Open-World Understanding
- arxiv url: http://arxiv.org/abs/2507.10844v1
- Date: Mon, 14 Jul 2025 22:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.906891
- Title: LLM-Guided Agentic Object Detection for Open-World Understanding
- Title(参考訳): LLMを用いたオープンワールド理解のためのエージェントオブジェクト検出
- Authors: Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz,
- Abstract要約: オブジェクト検出は伝統的に固定されたカテゴリセットに依存しており、新しいオブジェクトを扱うのにコストがかかる。
LLM誘導型エージェントオブジェクト検出フレームワークを提案する。
オープンワールド理解のための自律性と適応性を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 45.08126325125808
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object detection traditionally relies on fixed category sets, requiring costly re-training to handle novel objects. While Open-World and Open-Vocabulary Object Detection (OWOD and OVOD) improve flexibility, OWOD lacks semantic labels for unknowns, and OVOD depends on user prompts, limiting autonomy. We propose an LLM-guided agentic object detection (LAOD) framework that enables fully label-free, zero-shot detection by prompting a Large Language Model (LLM) to generate scene-specific object names. These are passed to an open-vocabulary detector for localization, allowing the system to adapt its goals dynamically. We introduce two new metrics, Class-Agnostic Average Precision (CAAP) and Semantic Naming Average Precision (SNAP), to separately evaluate localization and naming. Experiments on LVIS, COCO, and COCO-OOD validate our approach, showing strong performance in detecting and naming novel objects. Our method offers enhanced autonomy and adaptability for open-world understanding.
- Abstract(参考訳): オブジェクト検出は伝統的に固定されたカテゴリセットに依存しており、新しいオブジェクトを扱うのにコストがかかる。
Open-WorldとOpen-Vocabulary Object Detection (OWODとOVOD)は柔軟性を向上させるが、OWODには未知のセマンティックラベルがなく、OVODはユーザのプロンプトに依存し、自律性を制限する。
LLM誘導型エージェントオブジェクト検出(LAOD)フレームワークを提案し,Large Language Model(LLM)にシーン固有のオブジェクト名を生成することで,ラベルのないゼロショット検出を可能にする。
これらは局所化のための開語彙検出器に渡され、システムがその目標を動的に適応させることができる。
そこで我々は2つの新しい指標であるCAAP(Class-Agnostic Average Precision)とSNAP(Semantic Naming Average Precision)を導入する。
LVIS,COCO,COCO-OODによる実験により,新規物体の検出・命名において高い性能を示した。
オープンワールド理解のための自律性と適応性を向上する手法を提案する。
関連論文リスト
- Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models [0.0]
CCAS(Contrastive Class Alignment Score)と呼ばれる新しいメトリクスを用いた自動即時改善手法を提案する。
提案手法は,大規模言語モデルを用いて多様なプロンプト候補を生成し,文変換器からのプロンプト埋め込みを用いてCCASを用いてフィルタする。
本研究では,高精度の自動選択により,モデルトレーニングやラベル付きデータを必要とせずに,物体検出精度が向上することを示す。
論文 参考訳(メタデータ) (2025-05-14T04:43:36Z) - From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects [0.6262268096839562]
オープンボキャブラリオブジェクト検出(OVD)に関する最近の研究は、インプリンシプル・アンバウンドド・ボキャブラリによって定義されたオブジェクトの検出を可能にする。
OVDは「オラクル」によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要な応用においての使用を制限する。
我々は,未確認物体を特定し,段階的に学習することで,OVDモデルをオープンワールド環境で動作させるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T10:33:51Z) - Fine-Grained Open-Vocabulary Object Recognition via User-Guided Segmentation [1.590984668118904]
FOCUS: ユーザガイドによるきめ細かいオープン語彙オブジェクト認識。
FOCUSと呼ばれる新しい基礎モデルに基づく検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T18:13:27Z) - Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。
提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。
我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-25T07:12:51Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - CAT: LoCalization and IdentificAtion Cascade Detection Transformer for
Open-World Object Detection [17.766859354014663]
オープンワールドオブジェクト検出には、既知のオブジェクトと未知のオブジェクトの両方を検出するために、既知のオブジェクトのデータからトレーニングされたモデルが必要である。
CAT: LoCalization and IdentificAtion Cascade Detection Transformerを提案する。
我々のモデルはOWOD, インクリメンタルオブジェクト検出(IOD), オープンセット検出といったタスクにおけるすべての指標において, 最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T09:11:16Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose
Estimation [84.16372642822495]
我々は、textbfUDA-COPEと呼ばれるカテゴリレベルのオブジェクトポーズ推定のための教師なしドメイン適応(UDA)を提案する。
近年のマルチモーダルなUDA手法に触発された提案手法は,教師が指導する自己教師型学習手法を利用して,ターゲットドメインラベルを使わずにポーズ推定ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-11-24T16:00:48Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。