論文の概要: Detect Anything in Real Time: From Single-Prompt Segmentation to Multi-Class Detection
- arxiv url: http://arxiv.org/abs/2603.11441v1
- Date: Thu, 12 Mar 2026 02:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.812842
- Title: Detect Anything in Real Time: From Single-Prompt Segmentation to Multi-Class Detection
- Title(参考訳): リアルタイム検出:単発セグメンテーションから複数クラス検出へ
- Authors: Mehmet Kerem Turkcan,
- Abstract要約: 本稿では,SAM3を実時間マルチクラス検出器に変換する学習自由フレームワークを提案する。
val 2017 (5000イメージ、80クラス)では、1つのGTX 4080で15.8 FPS (4クラス、1008x1008)で55.8 APを達成した。
極端遅延ターゲットでは、冷凍エンコーダデコーダによるアダプタ蒸留は、13.9msのバックボーンで38.7 APを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language modeling have produced promptable detection and segmentation systems that accept arbitrary natural language queries at inference time. Among these, SAM3 achieves state-of-the-art accuracy by combining a ViT-H/14 backbone with cross-modal transformer decoding and learned object queries. However, SAM3 processes a single text prompt per forward pass. Detecting N categories requires N independent executions, each dominated by the 439M-parameter backbone. We present Detect Anything in Real Time (DART), a training-free framework that converts SAM3 into a real-time multi-class detector by exploiting a structural invariant: the visual backbone is class-agnostic, producing image features independent of the text prompt. This allows the backbone computation to be shared between all classes, reducing its cost from O(N) to O(1). Combined with batched multi-class decoding, detection-only inference, and TensorRT FP16 deployment, these optimizations yield 5.6x cumulative speedup at 3 classes, scaling to 25x at 80 classes, without modifying any model weight. On COCO val2017 (5,000 images, 80 classes), DART achieves 55.8 AP at 15.8 FPS (4 classes, 1008x1008) on a single RTX 4080, surpassing purpose-built open-vocabulary detectors trained on millions of box annotations. For extreme latency targets, adapter distillation with a frozen encoder-decoder achieves 38.7 AP with a 13.9 ms backbone. Code and models are available at https://github.com/mkturkcan/DART.
- Abstract(参考訳): 視覚言語モデリングの最近の進歩は、推論時に任意の自然言語クエリを受理する素早い検出とセグメンテーションシステムを生み出している。
これらのうちSAM3は、ViT-H/14バックボーンとクロスモーダルトランスフォーマーデコーディングと学習対象クエリを組み合わせることにより、最先端の精度を実現する。
しかしSAM3はフォワードパス毎に1つのテキストプロンプトを処理する。
Nカテゴリの検出にはN個の独立した実行が必要で、それぞれが439Mパラメータのバックボーンによって支配される。
我々は、SAM3を実時間マルチクラス検出器に変換する訓練不要のフレームワークであるDARTについて、構造的不変性を利用して、視覚的バックボーンをクラス非依存とし、テキストプロンプトに依存しない画像特徴を生成する。
これにより、バックボーン計算をすべてのクラス間で共有することができ、O(N) から O(1) へのコストを削減できる。
バッチ化されたマルチクラスデコード、検出専用推論、TensorRT FP16デプロイメントと組み合わせて、これらの最適化はモデルウェイトを変更することなく、3クラスで5.6倍の累積高速化を実現した。
COCO val2017 (5000イメージ、80クラス)では、DARTは1つのRTX 4080で15.8 FPS (4クラス、1008x1008)で55.8 APを達成した。
極端遅延ターゲットでは、冷凍エンコーダデコーダによるアダプタ蒸留は、13.9msのバックボーンで38.7 APを達成する。
コードとモデルはhttps://github.com/mkturkcan/DART.comで公開されている。
関連論文リスト
- The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection [0.0]
データキュレーション設計パターンであるMirrorを導入し、プロンプトインジェクションコーパスを正と負の細胞にまとめる。
我々は,L1インジェクション検定において,厳密なデータ形状がモデルスケールよりも重要であることを示す。
論文 参考訳(メタデータ) (2026-03-12T12:50:57Z) - dVoting: Fast Voting for dLLMs [71.572316901001]
拡散大言語モデル(dLLMs)は自己回帰モデリングを超えた新しいパラダイムである。
dLLMは任意の位置で任意のトークンを並列に生成できるため、並列テストタイムスケーリングには大きな可能性がある。
トレーニングなしで推論能力を高める高速投票手法であるdVotingを導入する。
論文 参考訳(メタデータ) (2026-02-12T16:35:05Z) - Lightweight LiDAR-Camera 3D Dynamic Object Detection and Multi-Class Trajectory Prediction [7.415417400188903]
サービス移動ロボットは、タスクを実行している間に動的オブジェクトを避ける必要があることが多い。
本稿では,3次元物体検出と軌道予測のための軽量なマルチモーダルフレームワークを提案する。
本システムは,3次元空間における歩行者,車両,ライダーのリアルタイム認識を実現するために,LiDARとカメラ入力を統合している。
論文 参考訳(メタデータ) (2025-04-18T11:59:34Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - RT-OVAD: Real-Time Open-Vocabulary Aerial Object Detection via Image-Text Collaboration [12.66046875297631]
我々は,空中シーンのための初のリアルタイムオープンボキャブラリ検出器RT-OVADを提案する。
従来のカテゴリ回帰損失を置き換えるために,画像とテキストのアライメント損失を導入する。
また,画像テキスト協調エンコーダとテキスト誘導復号器を組み合わせた軽量な画像テキスト協調方式を提案する。
論文 参考訳(メタデータ) (2024-08-22T09:33:25Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - MSANet: Multi-Similarity and Attention Guidance for Boosting Few-Shot
Segmentation [0.0]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
サポート機能が複数のプロトタイプを単体で生成するプロトタイプ学習は、FSSで広く使われている。
本稿では,2つのモジュール,多相性モジュール,および注目モジュールを含む多相性・注意ネットワーク(MSANet)を提案する。
論文 参考訳(メタデータ) (2022-06-20T09:14:17Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Tracking by Instance Detection: A Meta-Learning Approach [99.66119903655711]
本稿では,高性能トラッカー構築のための3段階の原理的手法を提案する。
我々は2つの現代的な検出器であるRetinaNetとFCOSをベースに、Retina-MAMLとFCOS-MAMLという2つのトラッカーを構築した。
両方のトラッカーは40FPSでリアルタイムに動作します。
論文 参考訳(メタデータ) (2020-04-02T05:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。