論文の概要: YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2602.00168v1
- Date: Thu, 29 Jan 2026 23:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.021873
- Title: YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
- Title(参考訳): YOLOE-26: リアルタイムオープン語彙インスタンスセグメンテーションのためのYOLOEとYOLO26の統合
- Authors: Ranjan Sapkota, Manoj Karkee,
- Abstract要約: YOLOE-26は、デプロイ最適化されたYOLO26(またはYOLOv26)アーキテクチャと、リアルタイムオープン語彙インスタンスセグメンテーションのためのYOLOEのオープン語彙学習パラダイムを統合する統合フレームワークである。
YOLOE-26は、PAN/FPNスタイルのマルチスケール機能アグリゲーションと、エンドツーエンドのレグレッションとセグメンテーションインスタンスヘッドを備えた畳み込みバックボーンを採用している。
- 参考スコア(独自算出の注目度): 3.2882817259131403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents YOLOE-26, a unified framework that integrates the deployment-optimized YOLO26(or YOLOv26) architecture with the open-vocabulary learning paradigm of YOLOE for real-time open-vocabulary instance segmentation. Building on the NMS-free, end-to-end design of YOLOv26, the proposed approach preserves the hallmark efficiency and determinism of the YOLO family while extending its capabilities beyond closed-set recognition. YOLOE-26 employs a convolutional backbone with PAN/FPN-style multi-scale feature aggregation, followed by end-to-end regression and instance segmentation heads. A key architectural contribution is the replacement of fixed class logits with an object embedding head, which formulates classification as similarity matching against prompt embeddings derived from text descriptions, visual examples, or a built-in vocabulary. To enable efficient open-vocabulary reasoning, the framework incorporates Re-Parameterizable Region-Text Alignment (RepRTA) for zero-overhead text prompting, a Semantic-Activated Visual Prompt Encoder (SAVPE) for example-guided segmentation, and Lazy Region Prompt Contrast for prompt-free inference. All prompting modalities operate within a unified object embedding space, allowing seamless switching between text-prompted, visual-prompted, and fully autonomous segmentation. Extensive experiments demonstrate consistent scaling behavior and favorable accuracy-efficiency trade-offs across model sizes in both prompted and prompt-free settings. The training strategy leverages large-scale detection and grounding datasets with multi-task optimization and remains fully compatible with the Ultralytics ecosystem for training, validation, and deployment. Overall, YOLOE-26 provides a practical and scalable solution for real-time open-vocabulary instance segmentation in dynamic, real-world environments.
- Abstract(参考訳): 本稿では,YOLOE のオープン語彙学習パラダイムである YOLO26(または YOLOv26) アーキテクチャを,リアルタイムなオープン語彙インスタンスセグメンテーションのために統合したフレームワーク YOLOE-26 を提案する。
提案手法は, YOLOv26のNMSフリーでエンドツーエンドな設計に基づいて, YOLOファミリーのマーク効率と決定性を保ちつつ, その能力をクローズドセット認識を超えて拡張する。
YOLOE-26はPAN/FPNスタイルのマルチスケール機能アグリゲーションを備えた畳み込みバックボーンを採用している。
重要なアーキテクチャ上の貢献は、固定クラスロジットをオブジェクト埋め込みヘッドに置き換えることである。
効率的なオープン語彙推論を可能にするため、このフレームワークはゼロオーバーヘッドテキストプロンプトのためのRe-Parameterizable Region-Text Alignment (RepRTA)、例誘導セグメンテーションのためのSemantic-Activated Visual Prompt Encoder (SAVPE)、プロンプトフリー推論のためのLazy Region Prompt Contrastを組み込んでいる。
すべてのプロンプトモダリティは、統一されたオブジェクト埋め込み空間内で動作し、テキストプロンプト、視覚プロンプト、完全に自律的なセグメンテーション間のシームレスな切り替えを可能にする。
大規模な実験では、一貫したスケーリングの振る舞いと、モデルサイズ全体にわたって、プロンプトとプロンプトフリーの両方で、良好な精度と効率のトレードオフを示す。
トレーニング戦略は、マルチタスク最適化による大規模な検出とグラウンドデータセットを活用するとともに、トレーニング、バリデーション、デプロイメントのためのUltralyticsエコシステムとの完全な互換性を維持している。
YOLOE-26は、動的で実世界の環境において、リアルタイムなオープン語彙のインスタンスセグメンテーションのための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection [3.1957907449739764]
本研究は, リアルタイムオブジェクト検出のためのアーキテクチャ拡張と性能ベンチマークについて, Ultralytics YOLO26の包括的解析を行った。
2025年9月にリリースされたYOLO26は、エッジおよび低消費電力デバイスに効率性、正確性、デプロイメントの準備ができているYOLOファミリーの最新のかつ最も先進的なメンバーである。
論文 参考訳(メタデータ) (2025-09-29T17:58:04Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - YOLOE: Real-Time Seeing Anything [80.98075581214799]
YOLOEは、様々なオープンプロンプト機構をまたいだ検出とセグメンテーションを、単一の高効率モデルに統合する。
YOLOEの例外的なゼロショット性能と高い推論効率と訓練コストの低い転送性。
論文 参考訳(メタデータ) (2025-03-10T15:42:59Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。
YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。
実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文 参考訳(メタデータ) (2024-12-30T01:34:14Z) - EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation [10.789633983083634]
EOV-Segは、オープン・ボキャブラリ・パノプティ・セグメンテーションのための新しい単一ステージ、共有、効率的、空間認識のフレームワークである。
視覚的アグリゲーションのセマンティック理解を改善するために,Vocabulary-Aware Selection (VAS) モジュールを導入する。
The Two-way Dynamic Embedding Experts (TDEE) was introduced a Two-way Dynamic Embedding Experts (TDEE) to leverage the spatial awareness ability of ViT-based CLIP backbone。
論文 参考訳(メタデータ) (2024-12-11T18:48:20Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。