論文の概要: Redundant Queries in DETR-Based 3D Detection Methods: Unnecessary and Prunable
- arxiv url: http://arxiv.org/abs/2412.02054v1
- Date: Tue, 03 Dec 2024 00:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:42.162722
- Title: Redundant Queries in DETR-Based 3D Detection Methods: Unnecessary and Prunable
- Title(参考訳): DETRに基づく3次元検出手法における冗長なクエリ:不要かつ実行可能
- Authors: Lizhen Xu, Shanmin Pang, Wenzhao Qiu, Zehao Wu, Xiuxiu Bai, Kuizhi Mei, Jianru Xue,
- Abstract要約: bdGradually bdPruning bdQueries (GPQ) という手法を提案する。
GPQは、分類スコアに基づいてクエリを漸進的に更新する。
FLOPsは67.86%減少し、推論時間は76.38%減少する。
- 参考スコア(独自算出の注目度): 14.172280530766358
- License:
- Abstract: Query-based models are extensively used in 3D object detection tasks, with a wide range of pre-trained checkpoints readily available online. However, despite their popularity, these models often require an excessive number of object queries, far surpassing the actual number of objects to detect. The redundant queries result in unnecessary computational and memory costs. In this paper, we find that not all queries contribute equally -- a significant portion of queries have a much smaller impact compared to others. Based on this observation, we propose an embarrassingly simple approach called \bd{G}radually \bd{P}runing \bd{Q}ueries (GPQ), which prunes queries incrementally based on their classification scores. It is straightforward to implement in any query-based method, as it can be seamlessly integrated as a fine-tuning step using an existing checkpoint after training. With GPQ, users can easily generate multiple models with fewer queries, starting from a checkpoint with an excessive number of queries. Experiments on various advanced 3D detectors show that GPQ effectively reduces redundant queries while maintaining performance. Using our method, model inference on desktop GPUs can be accelerated by up to 1.31x. Moreover, after deployment on edge devices, it achieves up to a 67.86\% reduction in FLOPs and a 76.38\% decrease in inference time. The code will be available at \url{https://github.com/iseri27/Gpq}.
- Abstract(参考訳): クエリベースのモデルは3Dオブジェクト検出タスクで広く使用され、トレーニング済みの幅広いチェックポイントがオンラインで利用可能である。
しかし、その人気にもかかわらず、これらのモデルは多くの場合、検出するオブジェクトの実際の数よりはるかに多い、過剰な数のオブジェクトクエリを必要とする。
冗長なクエリは不要な計算とメモリコストをもたらす。
この論文では、全てのクエリが等しく寄与するわけではないことが分かりました。
そこで本研究では, GPQ を用いて, 問合せを段階的に実行し, 問合せを段階的に行う手法を提案する。
トレーニング後に既存のチェックポイントを使用して、微調整のステップとしてシームレスに統合できるので、クエリベースのメソッドで実装するのは簡単です。
GPQを使用すると、ユーザーはクエリの少ない複数のモデルを簡単に生成できる。
様々な先進的な3D検出器の実験により、GPQは性能を維持しながら冗長なクエリを効果的に低減することが示された。
提案手法を用いることで,デスクトップGPU上でのモデル推論を最大1.31倍高速化することができる。
さらに、エッジデバイスにデプロイすると、最大67.86\%のFLOPを削減し、76.38\%の推論時間を削減できる。
コードは \url{https://github.com/iseri27/Gpq} で入手できる。
関連論文リスト
- Is Complex Query Answering Really Complex? [28.8459899849641]
CQAの現在のベンチマークはそれほど複雑ではなく、それらの構築方法がこの分野の進歩に対する認識を歪めていることを示している。
我々は、複数のホップを推論し、現実世界のKGの構築をより良く反映するモデルを必要とするクエリで構成された、より困難なベンチマークセットを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:19:03Z) - DQ-DETR: DETR with Dynamic Query for Tiny Object Detection [29.559819542066236]
DQ-DETRは3つの異なるコンポーネントから構成される。
DQ-DETRは、カテゴリカウントモジュールからの予測と密度マップを使用して、オブジェクトクエリの数を動的に調整する。
我々のモデルは、AI-TOD-V2データセット上で最先端のmAPを30.2%達成し、従来のCNNベースおよびDETRライクな手法より優れている。
論文 参考訳(メタデータ) (2024-04-04T15:10:24Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Dense Distinct Query for End-to-End Object Detection [39.32011383066249]
オブジェクト検出における1対1の割り当ては、非最大抑制の必要性を回避した。
本稿では,Dense Distinct Queries (DDQ) の解法について述べる。
DDQは従来のエンドツーエンド検出器と最近のエンド・ツー・エンド検出器の利点をブレンドし、様々な検出器の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-22T17:42:22Z) - DBQ-SSD: Dynamic Ball Query for Efficient 3D Object Detection [113.5418064456229]
入力特徴に応じて入力点のサブセットを適応的に選択する動的ボールクエリ(DBQ)ネットワークを提案する。
最先端の3D検出器に組み込むことができ、エンドツーエンドで訓練することで、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2022-07-22T07:08:42Z) - What Are Expected Queries in End-to-End Object Detection? [28.393693394478724]
提案するクエリは COCO Distinct Queries (DDQ) でなければならない。
DDQはより強く、より堅牢で、従来の方法よりも早く収束する。
MSarity検出データセットでは、12エポックしか持たない44.5 APが得られている。
論文 参考訳(メタデータ) (2022-06-02T18:15:44Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。