論文の概要: ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers
- arxiv url: http://arxiv.org/abs/2209.05654v1
- Date: Tue, 13 Sep 2022 00:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:53:23.478055
- Title: ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers
- Title(参考訳): completr: 視覚トランスフォーマーを用いた高密度シーンにおけるオブジェクト検出のためのアノテーションのコスト削減
- Authors: Achin Jain, Kibok Lee, Gurumurthy Swaminathan, Hao Yang, Bernt
Schiele, Avinash Ravichandran, Onkar Dabeer
- Abstract要約: ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
- 参考スコア(独自算出の注目度): 73.29057814695459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating bounding boxes for object detection is expensive, time-consuming,
and error-prone. In this work, we propose a DETR based framework called
ComplETR that is designed to explicitly complete missing annotations in
partially annotated dense scene datasets. This reduces the need to annotate
every object instance in the scene thereby reducing annotation cost. ComplETR
augments object queries in DETR decoder with patch information of objects in
the image. Combined with a matching loss, it can effectively find objects that
are similar to the input patch and complete the missing annotations. We show
that our framework outperforms the state-of-the-art methods such as Soft
Sampling and Unbiased Teacher by itself, while at the same time can be used in
conjunction with these methods to further improve their performance. Our
framework is also agnostic to the choice of the downstream object detectors; we
show performance improvement for several popular detectors such as Faster
R-CNN, Cascade R-CNN, CenterNet2, and Deformable DETR on multiple dense scene
datasets.
- Abstract(参考訳): オブジェクト検出のための注釈付きバウンディングボックスは、高価で、時間がかかり、エラーが発生しやすい。
本稿では,部分的なアノテーション付きシーンデータセットにおけるアノテーションの欠如を明示的に補完するように設計された,completr という detr ベースのフレームワークを提案する。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
ComplETRはDETRデコーダのオブジェクトクエリを画像内のオブジェクトのパッチ情報で拡張する。
一致した損失と組み合わせることで、入力パッチに類似したオブジェクトを効果的に見つけ、欠落したアノテーションを補完することができる。
提案手法は,ソフトサンプリングや偏りのない教師など,最先端の手法よりも優れており,同時に,これらの手法と併用することで,さらなる性能向上が期待できることを示す。
我々は,より高速なR-CNN,カスケードR-CNN,CenterNet2,Deformable DETRなどの人気検出器の性能向上を示す。
関連論文リスト
- Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Robust Object Detection in Remote Sensing Imagery with Noisy and Sparse
Geo-Annotations (Full Version) [4.493174773769076]
本稿では,非常にノイズの多い,不完全なアノテーションを用いたオブジェクト検出器のトレーニング手法を提案する。
本手法は,教師による学習フレームワークと,不正確で欠落したアノテーションを考慮した修正モジュールに基づく。
我々は,雑音の多い実世界のリモートセンシングデータセット上で,標準検出器を37.1%$AP_50$で改善できることを実証した。
論文 参考訳(メタデータ) (2022-10-24T07:25:31Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - Dense Relation Distillation with Context-aware Aggregation for Few-Shot
Object Detection [18.04185751827619]
新規なオブジェクトのきめ細かい特徴を、ほんのわずかなデータで簡単に見落としてしまうため、オブジェクト検出は困難である。
本稿では,少数の検出問題に対処するために,DCNet (Context-aware Aggregation) を用いたDense Relation Distillationを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:34:49Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Robust Object Detection under Occlusion with Context-Aware
CompositionalNets [21.303976151518125]
構成畳み込みニューラルネットワーク(CompositionalNets)は、隠蔽対象の分類において堅牢であることが示されている。
そこで我々は,コンポジションネットの2つの制限を克服し,部分的に隠蔽されたオブジェクトを検出することを提案する。
論文 参考訳(メタデータ) (2020-05-24T02:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。