論文の概要: OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation
- arxiv url: http://arxiv.org/abs/2603.07022v1
- Date: Sat, 07 Mar 2026 03:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.689637
- Title: OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation
- Title(参考訳): OV-DEIM:GridSynthetic Augmentationを用いたリアルタイムDETRスタイルオープンボキャブラリ検出
- Authors: Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen,
- Abstract要約: 我々は、最新のDEIMv2フレームワーク上に構築された、エンドツーエンドのDETRスタイルのオープンボキャブラリ検出器であるOV-DEIMを提案する。
推論速度を損なうことなく、Fixed APを改善した単純なクエリサプリメント戦略を導入する。
また、GridSyntheticは、複数のトレーニングサンプルを構造化画像グリッドに構成する、シンプルで効果的なデータ拡張戦略である。
- 参考スコア(独自算出の注目度): 25.349183260609948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time open-vocabulary object detection (OVOD) is essential for practical deployment in dynamic environments, where models must recognize a large and evolving set of categories under strict latency constraints. Current real-time OVOD methods are predominantly built upon YOLO-style models. In contrast, real-time DETR-based methods still lag behind in terms of inference latency, model lightweightness, and overall performance. In this work, we present OV-DEIM, an end-to-end DETR-style open-vocabulary detector built upon the recent DEIMv2 framework with integrated vision-language modeling for efficient open-vocabulary inference. We further introduce a simple query supplement strategy that improves Fixed AP without compromising inference speed. Beyond architectural improvements, we introduce GridSynthetic, a simple yet effective data augmentation strategy that composes multiple training samples into structured image grids. By exposing the model to richer object co-occurrence patterns and spatial layouts within a single forward pass, GridSynthetic mitigates the negative impact of noisy localization signals on the classification loss and improves semantic discrimination, particularly for rare categories. Extensive experiments demonstrate that OV-DEIM achieves state-of-the-art performance on open-vocabulary detection benchmarks, delivering superior efficiency and notable improvements on challenging rare categories. Code and pretrained models are available at https://github.com/wleilei/OV-DEIM.
- Abstract(参考訳): OVOD(Real-time Open-vocabulary Object Detection)は、モデルが厳密なレイテンシ制約の下で大規模で進化するカテゴリを認識しなければならない動的環境における実践的なデプロイに不可欠である。
現在のOVOD法は、主にYOLOスタイルのモデルに基づいて構築されている。
対照的に、リアルタイムのDETRベースのメソッドは、推論レイテンシ、モデルの軽量性、全体的なパフォーマンスに関してまだ遅れています。
本稿では,最新のDEIMv2フレームワーク上に構築され,効率的なオープンボキャブラリ推論のための視覚言語モデリングを組み込んだ,エンドツーエンドのDETRスタイルのオープンボキャブラリ検出器であるOV-DEIMを提案する。
さらに、推論速度を損なうことなく、Fixed APを改善した単純なクエリサプリメント戦略を導入する。
アーキテクチャの改善以外にも,複数のトレーニングサンプルを構造化画像グリッドに構成する,シンプルで効果的なデータ拡張戦略であるGridSyntheticを導入する。
GridSyntheticは、よりリッチなオブジェクト共起パターンと1つの前方パス内の空間的レイアウトにモデルを公開することにより、ノイズローカライゼーション信号が分類損失に与える影響を軽減し、特に稀なカテゴリにおいて意味的差別を改善する。
大規模な実験により,OV-DEIMはオープン語彙検出ベンチマークで最先端のパフォーマンスを達成し,優れた効率と難易度の高いカテゴリの顕著な改善を実現している。
コードと事前訓練されたモデルはhttps://github.com/wleilei/OV-DEIM.comで入手できる。
関連論文リスト
- RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models [48.91205564876609]
軽量物体検出器の高効率化を目的とした,コスト効率・高適合性蒸留フレームワークを提案する。
当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現しています。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
論文 参考訳(メタデータ) (2025-10-29T08:13:17Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - rETF-semiSL: Semi-Supervised Learning for Neural Collapse in Temporal Data [44.17657834678967]
本稿では,ニューラル・コラプス現象を満たす潜在表現を強制する,新しい半教師付き事前学習戦略を提案する。
LSTM, トランスフォーマー, 状態空間モデルに適用した場合, 従来のプリテキストタスクよりも有意に優れることを示す。
論文 参考訳(メタデータ) (2025-08-13T19:16:47Z) - RadarSeq: A Temporal Vision Framework for User Churn Prediction via Radar Chart Sequences [0.0]
本稿では,ユーザの行動パターンをレーダチャート画像のシーケンスとしてモデル化する,時間的認識型コンピュータビジョンフレームワークを提案する。
我々のアーキテクチャは、チャーン行動に基づく空間的パターンと時間的パターンの両方をキャプチャする。
フレームワークのモジュール設計、説明可能性ツール、効率的なデプロイメント特性は、動的ギグエコノミープラットフォームにおける大規模チャーンモデリングに適している。
論文 参考訳(メタデータ) (2025-06-18T22:20:49Z) - STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization [29.10084723132903]
本稿では,時空間探索型パターン学習フレームワークSTRAPを提案する。
推論中、STRAPは現在の入力と類似性に基づいてライブラリから関連するパターンを検索し、プラグイン・アンド・プレイ・プロンプト機構を介してモデルに注入する。
複数の実世界のストリーミンググラフデータセットに対する実験によると、STRAPはSTOODタスクの最先端STGNNベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T06:11:05Z) - Large EEG-U-Transformer for Time-Step Level Detection Without Pre-Training [1.3254304182988286]
局所的特徴と大域的特徴の両方を捉えることで表現を効率的に学習する単純なU字モデルを提案する。
他のウィンドウレベルの分類モデルと比較して,本手法は時間段階の予測を直接出力する。
我々のモデルは、てんかんおよび他の神経疾患における人工知能に関する国際会議において、2025年の第1回「青信号検出チャレンジ」で優勝した。
論文 参考訳(メタデータ) (2025-04-01T01:33:42Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。