論文の概要: End-to-End Object Detection with Transformers
- arxiv url: http://arxiv.org/abs/2005.12872v3
- Date: Thu, 28 May 2020 17:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:23:26.267767
- Title: End-to-End Object Detection with Transformers
- Title(参考訳): 変圧器を用いた終端物体検出
- Authors: Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier,
Alexander Kirillov, Sergey Zagoruyko
- Abstract要約: 本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
- 参考スコア(独自算出の注目度): 88.06357745922716
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a new method that views object detection as a direct set
prediction problem. Our approach streamlines the detection pipeline,
effectively removing the need for many hand-designed components like a
non-maximum suppression procedure or anchor generation that explicitly encode
our prior knowledge about the task. The main ingredients of the new framework,
called DEtection TRansformer or DETR, are a set-based global loss that forces
unique predictions via bipartite matching, and a transformer encoder-decoder
architecture. Given a fixed small set of learned object queries, DETR reasons
about the relations of the objects and the global image context to directly
output the final set of predictions in parallel. The new model is conceptually
simple and does not require a specialized library, unlike many other modern
detectors. DETR demonstrates accuracy and run-time performance on par with the
well-established and highly-optimized Faster RCNN baseline on the challenging
COCO object detection dataset. Moreover, DETR can be easily generalized to
produce panoptic segmentation in a unified manner. We show that it
significantly outperforms competitive baselines. Training code and pretrained
models are available at https://github.com/facebookresearch/detr.
- Abstract(参考訳): 本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
提案手法は検出パイプラインを合理化し,タスクに関する事前知識を明示的にエンコードする非最大抑制手順やアンカー生成といった,多くの手設計コンポーネントの必要性を効果的に排除する。
この新しいフレームワークの主な構成要素は、Detection TRansformer(DETR)と呼ばれ、二部マッチングによるユニークな予測を強制するセットベースのグローバル損失と、トランスフォーマーエンコーダ・デコーダアーキテクチャである。
学習対象クエリの固定された小さなセットが与えられた場合、DETRはオブジェクトとグローバルイメージコンテキストの関係について、最終的な予測セットを並列に出力する。
新しいモデルは概念的に単純であり、他の多くの現代の検出器とは異なり、特別なライブラリを必要としない。
DETRは、困難なCOCOオブジェクト検出データセットに基づいて、確立された高最適化のFaster RCNNベースラインと同等の精度と実行時のパフォーマンスを示す。
さらに、detrは簡単に一般化でき、統一的な方法でパンオプティカルセグメンテーションを生成することができる。
競合ベースラインを大きく上回っていることがわかります。
トレーニングコードと事前トレーニングされたモデルは、https://github.com/facebookresearch/detr.comで入手できる。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文 参考訳(メタデータ) (2022-09-13T00:11:16Z) - Task Specific Attention is one more thing you need for object detection [0.0]
我々は、いくつかの注意モジュールと新しいタスク特定分割変換器(TSST)を組み合わせることで、COCOの最良の結果を生成するのに十分な方法を提案する。
本稿では,複数の注意モジュールと新しいタスク特定分割変換器(TSST)を組み合わせることで,COCOの最良の結果を生成するのに十分な方法を提案する。
論文 参考訳(メタデータ) (2022-02-18T07:09:33Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - Efficient DETR: Improving End-to-End Object Detector with Dense Prior [7.348184873564071]
エンドツーエンドのオブジェクト検出のためのシンプルで効率的なパイプラインであるEfficient DETRを提案します。
密度検出とスパースセット検出の両方を利用することで、効率的なdetrはオブジェクトコンテナを初期化する前に密度を活用する。
MS COCOで行った実験により,3つのエンコーダ層と1つのデコーダ層しか持たない手法が,最先端のオブジェクト検出手法と競合する性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-04-03T06:14:24Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - UP-DETR: Unsupervised Pre-training for Object Detection with
Transformers [11.251593386108189]
教師なし事前学習型DETR(UP-DETR)におけるランダムクエリパッチ検出という新しいプレテキストタスクを提案する。
具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。
UP-DETRは、より高速な収束とオブジェクト検出、ワンショット検出、パノプティックセグメンテーションにおける平均精度でDETRの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-18T05:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。