論文の概要: RTGen: Real-Time Generative Detection Transformer
- arxiv url: http://arxiv.org/abs/2502.20622v1
- Date: Fri, 28 Feb 2025 01:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:05.849589
- Title: RTGen: Real-Time Generative Detection Transformer
- Title(参考訳): RTGen:リアルタイム生成検出変換器
- Authors: Chi Ruan,
- Abstract要約: 簡潔エンコーダデコーダアーキテクチャを用いたリアルタイム生成オブジェクト検出器を提案する。
具体的には、非自己回帰言語モデルと検出デコーダを革新的に統合した新しい領域言語デコーダ(RL-Decoder)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While open-vocabulary object detectors require predefined categories during inference, generative object detectors overcome this limitation by endowing the model with text generation capabilities. However, existing generative object detection methods directly append an autoregressive language model to an object detector to generate texts for each detected object. This straightforward design leads to structural redundancy and increased processing time. In this paper, we propose a Real-Time GENerative Detection Transformer (RTGen), a real-time generative object detector with a succinct encoder-decoder architecture. Specifically, we introduce a novel Region-Language Decoder (RL-Decoder), which innovatively integrates a non-autoregressive language model into the detection decoder, enabling concurrent processing of object and text information. With these efficient designs, RTGen achieves a remarkable inference speed of 60.41 FPS. Moreover, RTGen obtains 18.6 mAP on the LVIS dataset, outperforming the previous SOTA method by 3.5 mAP.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出器は推論中に事前に定義されたカテゴリを必要とするが、生成オブジェクト検出器は、モデルにテキスト生成能力を付与することで、この制限を克服する。
しかし、既存の生成オブジェクト検出方法は、オブジェクト検出に自己回帰言語モデルを直接付加し、検出されたオブジェクトごとにテキストを生成する。
この素直な設計は構造的冗長性と処理時間の増大につながる。
本稿では,簡潔エンコーダ・デコーダアーキテクチャを備えたリアルタイム生成オブジェクト検出器であるRTGen(Real-Time GENerative Detection Transformer)を提案する。
具体的には、非自己回帰言語モデルを検出デコーダに革新的に統合し、オブジェクトとテキスト情報の同時処理を可能にする新しい領域言語デコーダ(RL-Decoder)を提案する。
これらの効率的な設計により、RTGenは60.41 FPSという驚くべき推論速度を達成した。
さらに、RTGenはLVISデータセット上で18.6mAPを取得し、以前のSOTA法を3.5mAPで上回った。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - EAGLE: A Domain Generalization Framework for AI-generated Text Detection [15.254775341371364]
本稿では,未知のターゲットジェネレータからAI生成テキストを検出するための領域一般化フレームワークを提案する。
我々は,未知のターゲットジェネレータが生成したテキストの検出において,我々のフレームワークがいかに効果的に優れた性能を実現するかを実証する。
論文 参考訳(メタデータ) (2024-03-23T02:44:20Z) - Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。
EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。
トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文 参考訳(メタデータ) (2024-03-18T12:58:16Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - RTMDet: An Empirical Study of Designing Real-Time Object Detectors [13.09100888887757]
我々は、YOLO級数を超え、多くのオブジェクト認識タスクに容易に対応できる効率的なリアルタイム物体検出装置を開発した。
より良いトレーニング技術とともに、得られたオブジェクト検出器はRTMDetと呼ばれ、COCOでは52.8%AP、NVIDIA 3090 GPUでは300以上のFPSを達成している。
実験結果によって、多くの物体認識タスクのための汎用的リアルタイム物体検出器の設計に関する新たな洞察が得られればと願っている。
論文 参考訳(メタデータ) (2022-12-14T18:50:20Z) - Towards Generating Real-World Time Series Data [52.51620668470388]
時系列データ生成のための新しい生成フレームワーク - RTSGANを提案する。
RTSGANは、時系列インスタンスと固定次元潜在ベクトルの間のマッピングを提供するエンコーダデコーダモジュールを学習する。
不足した値の時系列を生成するために、RTSGANに観測埋め込み層と決定・生成デコーダを更に装備する。
論文 参考訳(メタデータ) (2021-11-16T11:31:37Z) - Achieving Real-Time LiDAR 3D Object Detection on a Mobile Device [53.323878851563414]
本稿では,強化学習技術を用いたネットワーク拡張とpruning検索を組み込んだコンパイラ対応統一フレームワークを提案する。
具体的には,リカレントニューラルネットワーク(RNN)を用いて,ネットワークの強化とプルーニングの両面での統一的なスキームを自動で提供する。
提案手法は,モバイルデバイス上でのリアルタイム3次元物体検出を実現する。
論文 参考訳(メタデータ) (2020-12-26T19:41:15Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。