論文の概要: Can the Query-based Object Detector Be Designed with Fewer Stages?
- arxiv url: http://arxiv.org/abs/2309.16306v1
- Date: Thu, 28 Sep 2023 09:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:08:40.970831
- Title: Can the Query-based Object Detector Be Designed with Fewer Stages?
- Title(参考訳): クエリベースのオブジェクト検出器は少ない段階で設計できるか?
- Authors: Jialin Li, Weifu Fu, Yuhuan Lin, Qiang Nie, Yong Liu
- Abstract要約: GOLOと呼ばれる2段階のデコードパラダイムに従う新しいモデルを提案する。
マルチステージデコーダを用いた他の主流クエリベースモデルと比較すると,デコーダのステージは少なく,性能は高い。
- 参考スコア(独自算出の注目度): 15.726619371300558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query-based object detectors have made significant advancements since the
publication of DETR. However, most existing methods still rely on multi-stage
encoders and decoders, or a combination of both. Despite achieving high
accuracy, the multi-stage paradigm (typically consisting of 6 stages) suffers
from issues such as heavy computational burden, prompting us to reconsider its
necessity. In this paper, we explore multiple techniques to enhance query-based
detectors and, based on these findings, propose a novel model called GOLO
(Global Once and Local Once), which follows a two-stage decoding paradigm.
Compared to other mainstream query-based models with multi-stage decoders, our
model employs fewer decoder stages while still achieving considerable
performance. Experimental results on the COCO dataset demonstrate the
effectiveness of our approach.
- Abstract(参考訳): クエリベースのオブジェクト検出器は、DETRの公開以来、大幅に進歩してきた。
しかし、既存の手法のほとんどは、マルチステージエンコーダとデコーダ、あるいは両方の組み合わせに依存している。
精度が高いにもかかわらず、多段階パラダイム(典型的には6段階)は計算負荷などの問題に悩まされ、その必要性を再考する。
本稿では,クエリーベースの検出機能を強化するための複数の手法について検討し,これらの知見に基づいて,GOLO(Global Once and Local Once)と呼ばれる2段階デコードパラダイムに従う新しいモデルを提案する。
マルチステージデコーダを用いた他の主流クエリベースモデルと比較すると,デコーダのステージは少なく,性能は高い。
COCOデータセットの実験結果から,本手法の有効性が示された。
関連論文リスト
- Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks [9.207022068713867]
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
論文 参考訳(メタデータ) (2024-07-17T14:12:34Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - MimicDet: Bridging the Gap Between One-Stage and Two-Stage Object
Detection [65.74032877197844]
1段の検出器は、単純なアーキテクチャのためより効率的だが、2段の検出器は依然として精度でリードしている。
2段階特徴を直接模倣して1段階検出器を訓練する新しいフレームワークであるMimicDetを提案する。
マイクロメソッドは1段と2段の検出器で共有されたバックボーンを持ち、それから2つのヘッドに分岐する。
論文 参考訳(メタデータ) (2020-09-24T07:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。