論文の概要: Real-time Transformer-based Open-Vocabulary Detection with Efficient
Fusion Head
- arxiv url: http://arxiv.org/abs/2403.06892v1
- Date: Mon, 11 Mar 2024 16:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:03:16.807469
- Title: Real-time Transformer-based Open-Vocabulary Detection with Efficient
Fusion Head
- Title(参考訳): 効率的な核融合ヘッドを用いたリアルタイム変圧器型開ボキャブラリー検出
- Authors: Tiancheng Zhao, Peng Liu, Xuan He, Lu Zhang and Kyusong Lee
- Abstract要約: 新しいトランスフォーマーベースのリアルタイムOVDモデルは、OmDetやGrounding-DINOで観測されるボトルネックを軽減するために設計された、革新的なEfficient Fusion Head (EFH)モジュールを備えている。
OmDet-Turboは、現在の最先端の教師付きモデルとほぼ同等のパフォーマンスレベルを達成する。
- 参考スコア(独自算出の注目度): 25.18252073424214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end transformer-based detectors (DETRs) have shown exceptional
performance in both closed-set and open-vocabulary object detection (OVD) tasks
through the integration of language modalities. However, their demanding
computational requirements have hindered their practical application in
real-time object detection (OD) scenarios. In this paper, we scrutinize the
limitations of two leading models in the OVDEval benchmark, OmDet and
Grounding-DINO, and introduce OmDet-Turbo. This novel transformer-based
real-time OVD model features an innovative Efficient Fusion Head (EFH) module
designed to alleviate the bottlenecks observed in OmDet and Grounding-DINO.
Notably, OmDet-Turbo-Base achieves a 100.2 frames per second (FPS) with
TensorRT and language cache techniques applied. Notably, in zero-shot scenarios
on COCO and LVIS datasets, OmDet-Turbo achieves performance levels nearly on
par with current state-of-the-art supervised models. Furthermore, it
establishes new state-of-the-art benchmarks on ODinW and OVDEval, boasting an
AP of 30.1 and an NMS-AP of 26.86, respectively. The practicality of
OmDet-Turbo in industrial applications is underscored by its exceptional
performance on benchmark datasets and superior inference speed, positioning it
as a compelling choice for real-time object detection tasks. Code:
\url{https://github.com/om-ai-lab/OmDet}
- Abstract(参考訳): detr(end-to-end transformer-based detectors)は、言語モダリティの統合を通じて、クローズドセットとオープンボキャブラリオブジェクト検出(ovd)タスクの両方において例外的な性能を示している。
しかし、それらの要求する計算要件は、リアルタイムオブジェクト検出(od)シナリオにおける実用的な応用を妨げる。
本稿では,OVDEvalベンチマークにおける2つの主要なモデル,OmDet と Grounding-DINO の限界を精査し,OmDet-Turbo を紹介する。
このトランスフォーマーベースのリアルタイムOVDモデルは、OmDetやGrounding-DINOで観測されるボトルネックを軽減するために設計された、革新的なEfficient Fusion Head (EFH)モジュールを備えている。
特に、OmDet-Turbo-Baseは、TensorRTと言語キャッシュ技術を適用した100.2フレーム/秒(FPS)を達成した。
特にCOCOとLVISデータセットのゼロショットシナリオでは、OmDet-Turboは現在の最先端監視モデルとほぼ同等のパフォーマンスレベルを達成する。
さらにODinWとOVDEvalでそれぞれAPが30.1、NMS-APが26.86である最先端のベンチマークを新たに確立した。
産業アプリケーションにおけるOmDet-Turboの実用性は、ベンチマークデータセットでの例外的なパフォーマンスと推論速度の向上により、リアルタイムオブジェクト検出タスクの魅力的な選択肢として位置づけられている。
コード: \url{https://github.com/om-ai-lab/OmDet}
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - NVAE-GAN Based Approach for Unsupervised Time Series Anomaly Detection [19.726089445453734]
時系列異常検出は、多くの業界で一般的だが難しい課題である。
実世界から収集されたノイズデータから,時系列の異常を高精度に検出することは困難である。
我々は異常検出モデルを提案する:時系列から画像VAE (T2IVAE)
論文 参考訳(メタデータ) (2021-01-08T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。