論文の概要: YOLO-UniOW: Efficient Universal Open-World Object Detection
- arxiv url: http://arxiv.org/abs/2412.20645v1
- Date: Mon, 30 Dec 2024 01:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:12.579101
- Title: YOLO-UniOW: Efficient Universal Open-World Object Detection
- Title(参考訳): YOLO-UniOW: 万能オープンワールドオブジェクト検出
- Authors: Lihao Liu, Juexiao Feng, Hui Chen, Ao Wang, Lin Song, Jungong Han, Guiguang Ding,
- Abstract要約: オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。
YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。
実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
- 参考スコア(独自算出の注目度): 63.71512991320627
- License:
- Abstract: Traditional object detection models are constrained by the limitations of closed-set datasets, detecting only categories encountered during training. While multimodal models have extended category recognition by aligning text and image modalities, they introduce significant inference overhead due to cross-modality fusion and still remain restricted by predefined vocabulary, leaving them ineffective at handling unknown objects in open-world scenarios. In this work, we introduce Universal Open-World Object Detection (Uni-OWD), a new paradigm that unifies open-vocabulary and open-world object detection tasks. To address the challenges of this setting, we propose YOLO-UniOW, a novel model that advances the boundaries of efficiency, versatility, and performance. YOLO-UniOW incorporates Adaptive Decision Learning to replace computationally expensive cross-modality fusion with lightweight alignment in the CLIP latent space, achieving efficient detection without compromising generalization. Additionally, we design a Wildcard Learning strategy that detects out-of-distribution objects as "unknown" while enabling dynamic vocabulary expansion without the need for incremental learning. This design empowers YOLO-UniOW to seamlessly adapt to new categories in open-world environments. Extensive experiments validate the superiority of YOLO-UniOW, achieving achieving 34.6 AP and 30.0 APr on LVIS with an inference speed of 69.6 FPS. The model also sets benchmarks on M-OWODB, S-OWODB, and nuScenes datasets, showcasing its unmatched performance in open-world object detection. Code and models are available at https://github.com/THU-MIG/YOLO-UniOW.
- Abstract(参考訳): 従来のオブジェクト検出モデルは、クローズドセットデータセットの制限によって制約され、トレーニング中に遭遇するカテゴリのみを検出する。
マルチモーダルモデルは、テキストと画像のモダリティを整列させることによってカテゴリ認識を拡張するが、それらは、相互モダリティ融合による大きな推論オーバーヘッドを導入し、未定義の語彙によって制限され続け、オープンワールドシナリオにおける未知のオブジェクトの扱いには効果が残らない。
本研究では,オープン・ボキャブラリとオープン・ワールド・オブジェクト検出タスクを統一する新しいパラダイムであるUni-OWDを紹介する。
この設定の課題に対処するため、効率性、汎用性、性能の境界を推し進める新しいモデル「YOLO-UniOW」を提案する。
YOLO-UniOWは適応決定学習(Adaptive Decision Learning)を導入し、計算コストのかかるクロスモダリティ融合をCLIP潜在空間の軽量なアライメントに置き換え、一般化を損なうことなく効率的な検出を実現する。
さらに,非分布オブジェクトを「未知」として検出し,段階的な学習を必要とせずに動的語彙拡張を可能にするワイルドカード学習戦略を設計する。
この設計により、YOLO-UniOWはオープンワールド環境で新しいカテゴリにシームレスに適応できる。
大規模な実験により、YOLO-UniOWの優位性が検証され、推力69.6 FPSのLVISで34.6 APと30.0 APrを達成した。
このモデルは、M-OWODB、S-OWODB、nuScenesデータセットのベンチマークも設定しており、オープンワールドオブジェクト検出における未適合のパフォーマンスを示している。
コードとモデルはhttps://github.com/THU-MIG/YOLO-UniOW.comで公開されている。
関連論文リスト
- Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects [0.6262268096839562]
オープン語彙オブジェクト検出(OVD)に関する最近の研究により、非有界語彙によって定義されたオブジェクトの検出が可能になった。
OVDは'oracle'によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要なアプリケーションでの使用を制限する。
我々は,OVDモデルをオープンワールドで動作させるフレームワークを提案し,新しいオブジェクトを段階的に識別し,学習する。
論文 参考訳(メタデータ) (2024-11-27T10:33:51Z) - Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection [18.65107742085838]
提案するMambaFusion Path Aggregation Network (MambaFusion-PAN) をネックアーキテクチャとして用いた新しいYOLOベースのOVDモデルであるMamba-YOLO-Worldを提案する。
具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。
実験の結果,COCOとLVISのベンチマークでは,ゼロショットと微調整の両方で,従来のYOLO-Worldよりも優れていた。
論文 参考訳(メタデータ) (2024-09-13T03:23:52Z) - GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting [4.117416395116726]
GMFL-Net(Global Multi-geometric Feature Learning Network)を提案する。
具体的には,多幾何学的特徴を融合させて情報表現を改善するMIAモジュールを設計する。
また、ポイントワイド素子とチャネルワイド素子の相互依存性を高めるGBFLモジュールを設計する。
論文 参考訳(メタデータ) (2024-08-31T02:18:26Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Towards Open-Ended Visual Recognition with Large Language Model [27.56182473356992]
我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-11-14T18:59:01Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。