論文の概要: YOLO-World: Real-Time Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2401.17270v3
- Date: Thu, 22 Feb 2024 13:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:51:56.808244
- Title: YOLO-World: Real-Time Open-Vocabulary Object Detection
- Title(参考訳): YOLO-World: リアルタイムオープン語彙オブジェクト検出
- Authors: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying
Shan
- Abstract要約: オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
- 参考スコア(独自算出の注目度): 87.08732047660058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The You Only Look Once (YOLO) series of detectors have established themselves
as efficient and practical tools. However, their reliance on predefined and
trained object categories limits their applicability in open scenarios.
Addressing this limitation, we introduce YOLO-World, an innovative approach
that enhances YOLO with open-vocabulary detection capabilities through
vision-language modeling and pre-training on large-scale datasets.
Specifically, we propose a new Re-parameterizable Vision-Language Path
Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate
the interaction between visual and linguistic information. Our method excels in
detecting a wide range of objects in a zero-shot manner with high efficiency.
On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on
V100, which outperforms many state-of-the-art methods in terms of both accuracy
and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable
performance on several downstream tasks, including object detection and
open-vocabulary instance segmentation.
- Abstract(参考訳): You Only Look Once (YOLO)シリーズは、効率的で実用的なツールとして確立されている。
しかしながら、事前定義された、および訓練されたオブジェクトカテゴリへの依存は、オープンシナリオにおける適用性を制限している。
この制限に対処するため、大規模なデータセット上での視覚言語モデリングと事前学習を通じて、オープン語彙検出機能によりYOLOを強化する革新的なアプローチであるYOLO-Worldを導入する。
具体的には、視覚情報と言語情報の相互作用を容易にするために、新たにRe-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) とリージョンテキストコントラスト損失を提案する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
挑戦的なLVISデータセットでは、YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
さらに、細調整されたYOLO-Worldは、オブジェクト検出やオープン語彙のインスタンスセグメンテーションなど、いくつかの下流タスクで顕著なパフォーマンスを実現している。
関連論文リスト
- Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors [0.0]
本研究では,YOLOv3から最新のYOLO11まで,YOLO(You Only Look Once)アルゴリズムのベンチマーク解析を行った。
トラフィックシグネチャ(さまざまなオブジェクトサイズを持つ)、アフリカ野生生物(多彩なアスペクト比と画像当たりのオブジェクトの少なくとも1つのインスタンス)、および船と船舶(単一のクラスの小さなオブジェクトを持つ)の3つの多様なデータセットでパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [50.16478515591924]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision [0.6662800021628277]
本稿では、YOLOv5, YOLOv8, YOLOv10に着目し、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進化に焦点を当てた。
これらのバージョンにまたがるエッジデプロイメントのアーキテクチャの進歩、パフォーマンスの改善、適合性を分析します。
論文 参考訳(メタデータ) (2024-07-03T10:40:20Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - Investigating YOLO Models Towards Outdoor Obstacle Detection For
Visually Impaired People [3.4628430044380973]
7種類のYOLOオブジェクト検出モデルが実装された。
YOLOv8は最高のモデルであることが判明し、その精度は80ドルに達し、よく知られたObstacleデータセットでは68.2%だった。
YOLO-NASは障害物検出作業に最適であることがわかった。
論文 参考訳(メタデータ) (2023-12-10T13:16:22Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。