論文の概要: YOLOE: Real-Time Seeing Anything
- arxiv url: http://arxiv.org/abs/2503.07465v1
- Date: Mon, 10 Mar 2025 15:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:33.856058
- Title: YOLOE: Real-Time Seeing Anything
- Title(参考訳): YOLOE: リアルタイム検索
- Authors: Ao Wang, Lihao Liu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding,
- Abstract要約: YOLOEは、様々なオープンプロンプト機構をまたいだ検出とセグメンテーションを、単一の高効率モデルに統合する。
YOLOEの例外的なゼロショット性能と高い推論効率と訓練コストの低い転送性。
- 参考スコア(独自算出の注目度): 64.35836518093342
- License:
- Abstract: Object detection and segmentation are widely employed in computer vision applications, yet conventional models like YOLO series, while efficient and accurate, are limited by predefined categories, hindering adaptability in open scenarios. Recent open-set methods leverage text prompts, visual cues, or prompt-free paradigm to overcome this, but often compromise between performance and efficiency due to high computational demands or deployment complexity. In this work, we introduce YOLOE, which integrates detection and segmentation across diverse open prompt mechanisms within a single highly efficient model, achieving real-time seeing anything. For text prompts, we propose Re-parameterizable Region-Text Alignment (RepRTA) strategy. It refines pretrained textual embeddings via a re-parameterizable lightweight auxiliary network and enhances visual-textual alignment with zero inference and transferring overhead. For visual prompts, we present Semantic-Activated Visual Prompt Encoder (SAVPE). It employs decoupled semantic and activation branches to bring improved visual embedding and accuracy with minimal complexity. For prompt-free scenario, we introduce Lazy Region-Prompt Contrast (LRPC) strategy. It utilizes a built-in large vocabulary and specialized embedding to identify all objects, avoiding costly language model dependency. Extensive experiments show YOLOE's exceptional zero-shot performance and transferability with high inference efficiency and low training cost. Notably, on LVIS, with 3$\times$ less training cost and 1.4$\times$ inference speedup, YOLOE-v8-S surpasses YOLO-Worldv2-S by 3.5 AP. When transferring to COCO, YOLOE-v8-L achieves 0.6 AP$^b$ and 0.4 AP$^m$ gains over closed-set YOLOv8-L with nearly 4$\times$ less training time. Code and models are available at https://github.com/THU-MIG/yoloe.
- Abstract(参考訳): オブジェクトの検出とセグメンテーションはコンピュータビジョンアプリケーションで広く使われているが、YOLOシリーズのような従来のモデルは効率的かつ正確であるが、事前に定義されたカテゴリによって制限されており、オープンシナリオの適応性を妨げている。
最近のオープンセット手法では、テキストプロンプト、ビジュアルキュー、あるいはプロンプトフリーのパラダイムを利用してこれを克服するが、高い計算要求やデプロイメントの複雑さのために性能と効率を損なうことが多い。
本研究では,複数のオープンプロンプト機構をまたいだ検出とセグメンテーションを単一の高効率モデルに組み込んだYOLOEを提案する。
テキストプロンプトに対しては、Re-parameterizable Region-Text Alignment(RepRTA)戦略を提案する。
トレーニング済みのテキスト埋め込みを、再パラメータ化可能な軽量補助ネットワークを通じて洗練し、推論や転送オーバーヘッドをゼロにして視覚的テキストアライメントを強化する。
視覚的プロンプトとして,セマンティックアクティベートされた視覚プロンプトエンコーダ(SAVPE)を提案する。
分離されたセマンティックブランチとアクティベーションブランチを使用して、視覚的な埋め込みを改善し、最小限の複雑さで精度を向上させる。
プロンプトフリーのシナリオでは、Lazy Region-Prompt Contrast(LRPC)戦略を紹介します。
組み込みの大きな語彙と特別な埋め込みを使って、すべてのオブジェクトを識別し、高価な言語モデルの依存性を避ける。
大規模な実験では、ヨロエの例外的なゼロショット性能と高い推論効率と訓練コストの低い転送性を示す。
LVISでは、トレーニングコストが3$\times$安く、推論速度が1.4$\times$で、YOLOE-v8-SはYOLO-Worldv2-Sを3.5 APで上回っている。
COCOに移行すると、YOLOE-v8-Lは0.6 AP$^b$と0.4 AP$^m$ゲインを得る。
コードとモデルはhttps://github.com/THU-MIG/yoloe.comで入手できる。
関連論文リスト
- YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。
YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。
実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文 参考訳(メタデータ) (2024-12-30T01:34:14Z) - YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision [0.6662800021628277]
本稿では、YOLOv5, YOLOv8, YOLOv10に着目し、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進化に焦点を当てた。
これらのバージョンにまたがるエッジデプロイメントのアーキテクチャの進歩、パフォーマンスの改善、適合性を分析します。
論文 参考訳(メタデータ) (2024-07-03T10:40:20Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。