論文の概要: Task Specific Attention is one more thing you need for object detection
- arxiv url: http://arxiv.org/abs/2202.09048v1
- Date: Fri, 18 Feb 2022 07:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:27:02.740961
- Title: Task Specific Attention is one more thing you need for object detection
- Title(参考訳): タスク固有の注意は、オブジェクト検出にもう1つ必要です
- Authors: Sang Yon Lee
- Abstract要約: 我々は、いくつかの注意モジュールと新しいタスク特定分割変換器(TSST)を組み合わせることで、COCOの最良の結果を生成するのに十分な方法を提案する。
本稿では,複数の注意モジュールと新しいタスク特定分割変換器(TSST)を組み合わせることで,COCOの最良の結果を生成するのに十分な方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various models have been proposed to solve the object detection problem.
However, most of them require many hand-designed components to demonstrate good
performance. To mitigate these issues, Transformer based DETR and its variant
Deformable DETR were suggested. They solved much of the complex issue of
designing a head of object detection model but it has not been generally clear
that the Transformer-based models could be considered as the state-of-the-art
method in object detection without doubt. Furthermore, as DETR adapted
Transformer method only for the detection head, but still with including CNN
for the backbone body, it has not been certain that it would be possible to
build the competent end-to-end pipeline with the combination of attention
modules. In this paper, we propose that combining several attention modules
with our new Task Specific Split Transformer(TSST) is a fairly good enough
method to produce the best COCO results without traditionally hand-designed
components. By splitting generally purposed attention module into two separated
mission specific attention module, the proposed method addresses the way to
design simpler object detection models than before. Extensive experiments on
the COCO benchmark demonstrate the effectiveness of our approach. Code is
released at https://github.com/navervision/tsst
- Abstract(参考訳): 物体検出問題を解くために様々なモデルが提案されている。
しかし、そのほとんどは優れた性能を示すために多くの手作りのコンポーネントを必要とする。
これらの問題を緩和するため、TransformerベースのDETRとその変種であるDeformable DETRが提案された。
彼らは、オブジェクト検出モデルの先頭を設計する複雑な問題の多くを解決したが、トランスフォーマーベースのモデルが、間違いなくオブジェクト検出における最先端の方法とみなすことができることは、一般には明らかではない。
さらに、DETR は検出ヘッドのみに Transformer メソッドを適用しているが、背骨体に CNN を組み込んでも、アテンションモジュールを組み合わせることで、有能なエンドツーエンドパイプラインを構築することができるかどうかは定かではない。
本稿では,いくつかのアテンションモジュールと新しいタスク固有スプリットトランスフォーマ(tsst)を組み合わせることで,従来の手作業で設計したコンポーネントを使わずに最高のcoco結果を生成する方法を提案する。
一般に目的の注意モジュールを2つのミッション固有の注意モジュールに分割することにより、提案手法は従来よりもシンプルな物体検出モデルの設計方法に対処する。
COCOベンチマークの大規模な実験は、我々のアプローチの有効性を実証している。
コードはhttps://github.com/navervision/tsstでリリース
関連論文リスト
- MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Transformer-based Multi-Instance Learning for Weakly Supervised Object
Detection [43.481591776038144]
Weakly Supervised Object Detection (WSOD)は、画像レベルのアノテーションのみを使用してオブジェクト検出モデルのトレーニングを可能にする。
Weakly Supervised Transformer Detection Network (WSTDN) をベースとしたWSODのバックボーンを提案する。
論文 参考訳(メタデータ) (2023-03-27T08:42:45Z) - Rethinking the Detection Head Configuration for Traffic Object Detection [11.526701794026641]
本稿では,検出ヘッドとオブジェクト分布のマッチングに基づいて,軽量なトラフィックオブジェクト検出ネットワークを提案する。
提案したモデルでは,BDD100Kデータセットと提案したETFOD-v2データセットの他のモデルよりも,より競争力のあるパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-08T02:23:57Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - Deformable DETR: Deformable Transformers for End-to-End Object Detection [41.050320861408046]
DETRは緩やかな収束と限られた特徴空間分解能に悩まされている。
Deformable DETRを提案し、注意モジュールは参照周辺のキーサンプリングポイントの小さなセットにしか対応しない。
変形可能なDETRは10倍のトレーニングエポックでDETRよりも優れたパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2020-10-08T17:59:21Z) - Condensing Two-stage Detection with Automatic Object Key Part Discovery [87.1034745775229]
2段階の物体検出器は通常、高い精度を達成するために、検出ヘッドのために過度に大きなモデルを必要とする。
そこで本研究では,2段階検出ヘッドのモデルパラメータを,対象キー部分に集中させることで縮合・縮小できることを示す。
提案手法は、一般的な2段検出ヘッドのモデルパラメータの約50%を放棄しながら、元の性能を一貫して維持する。
論文 参考訳(メタデータ) (2020-06-10T01:20:47Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。