Fugu-MT 論文翻訳(概要): YOLO-World: Real-Time Open-Vocabulary Object Detection

論文の概要: YOLO-World: Real-Time Open-Vocabulary Object Detection

arxiv url: http://arxiv.org/abs/2401.17270v2
Date: Fri, 2 Feb 2024 10:06:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:27:59.343057
Title: YOLO-World: Real-Time Open-Vocabulary Object Detection
Title（参考訳）: YOLO-World: リアルタイムオープン語彙オブジェクト検出
Authors: Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
Abstract要約: オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
参考スコア（独自算出の注目度）: 87.08732047660058
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
Abstract（参考訳）: You Only Look Once (YOLO)シリーズは、効率的で実用的なツールとして確立されている。しかしながら、事前定義された、および訓練されたオブジェクトカテゴリへの依存は、オープンシナリオにおける適用性を制限している。この制限に対処するため、大規模なデータセット上での視覚言語モデリングと事前学習を通じて、オープン語彙検出機能によりYOLOを強化する革新的なアプローチであるYOLO-Worldを導入する。具体的には、視覚情報と言語情報の相互作用を容易にするために、新たにRe-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) とリージョンテキストコントラスト損失を提案する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。挑戦的なLVISデータセットでは、YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。さらに、細調整されたYOLO-Worldは、オブジェクト検出やオープン語彙のインスタンスセグメンテーションなど、いくつかの下流タスクで顕著なパフォーマンスを実現している。

関連論文リスト

YOLOv1 to YOLOv11: A Comprehensive Survey of Real-Time Object Detection Innovations and Challenges [0.0]
YOLO(You Only Look Once)モデルは、統合されたエンドツーエンド検出フレームワークを通じて、リアルタイム視覚アプリケーションのランドスケープを変換します。本稿では, アーキテクチャの革新, パフォーマンスベンチマーク, 拡張機能, 実世界のユースケースを取り上げ, YOLOファミリーの総合的なレビューを行う。我々は、YOLOモデルの進化を批判的に分析し、様々なコンピュータビジョン領域にまたがる影響を拡大する新たな研究方向について議論する。
論文参考訳（メタデータ） (2025-08-04T05:13:51Z)
YOLOE: Real-Time Seeing Anything [64.35836518093342]
YOLOEは、様々なオープンプロンプト機構をまたいだ検出とセグメンテーションを、単一の高効率モデルに統合する。 YOLOEの例外的なゼロショット性能と高い推論効率と訓練コストの低い転送性。
論文参考訳（メタデータ） (2025-03-10T15:42:59Z)
YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。 YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文参考訳（メタデータ） (2024-12-30T01:34:14Z)
Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:14:32Z)
Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors [0.0]
本研究では,YOLOv3から最新のYOLO11まで,YOLO(You Only Look Once)アルゴリズムのベンチマーク解析を行った。トラフィックシグネチャ(さまざまなオブジェクトサイズを持つ)、アフリカ野生生物(多彩なアスペクト比と画像当たりのオブジェクトの少なくとも1つのインスタンス)、および船と船舶(単一のクラスの小さなオブジェクトを持つ)の3つの多様なデータセットでパフォーマンスを評価する。
論文参考訳（メタデータ） (2024-10-31T20:45:00Z)
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [50.16478515591924]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文参考訳（メタデータ） (2024-08-17T06:24:43Z)
YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision [0.6662800021628277]
本稿では、YOLOv5, YOLOv8, YOLOv10に着目し、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進化に焦点を当てた。これらのバージョンにまたがるエッジデプロイメントのアーキテクチャの進歩、パフォーマンスの改善、適合性を分析します。
論文参考訳（メタデータ） (2024-07-03T10:40:20Z)
YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文参考訳（メタデータ） (2024-05-23T11:44:29Z)
Investigating YOLO Models Towards Outdoor Obstacle Detection For Visually Impaired People [3.4628430044380973]
7種類のYOLOオブジェクト検出モデルが実装された。 YOLOv8は最高のモデルであることが判明し、その精度は80ドルに達し、よく知られたObstacleデータセットでは68.2%だった。 YOLO-NASは障害物検出作業に最適であることがわかった。
論文参考訳（メタデータ） (2023-12-10T13:16:22Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文参考訳（メタデータ） (2023-08-10T10:12:27Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。