論文の概要: A Strong and Reproducible Object Detector with Only Public Datasets
- arxiv url: http://arxiv.org/abs/2304.13027v1
- Date: Tue, 25 Apr 2023 17:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 19:18:23.860311
- Title: A Strong and Reproducible Object Detector with Only Public Datasets
- Title(参考訳): 公開データセットのみを持つ強く再現可能な物体検出器
- Authors: Tianhe Ren, Jianwei Yang, Shilong Liu, Ailing Zeng, Feng Li, Hao
Zhang, Hongyang Li, Zhaoyang Zeng, Lei Zhang
- Abstract要約: この研究は、強く再現可能な物体検出モデルであるFocal-Stable-DINOを提示する。
COCO val 2017で64.6 AP、COCO test-devで64.8 AP、テスト時間拡張なしで700Mパラメータしか達成していない。
- 参考スコア(独自算出の注目度): 34.05910541854992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents Focal-Stable-DINO, a strong and reproducible object
detection model which achieves 64.6 AP on COCO val2017 and 64.8 AP on COCO
test-dev using only 700M parameters without any test time augmentation. It
explores the combination of the powerful FocalNet-Huge backbone with the
effective Stable-DINO detector. Different from existing SOTA models that
utilize an extensive number of parameters and complex training techniques on
large-scale private data or merged data, our model is exclusively trained on
the publicly available dataset Objects365, which ensures the reproducibility of
our approach.
- Abstract(参考訳): この研究は、COCO val2017で64.6 AP、COCO test-devで64.8 APを達成し、テスト時間を増やすことなく700万のパラメータしか持たない強力な再現可能なオブジェクト検出モデルであるFocal-Stable-DINOを提示する。
強力なfocalnet-hugeバックボーンと効果的なstable-dino検出器の組み合わせを探索する。
大規模プライベートデータやマージデータで多種多様なパラメータや複雑なトレーニング技術を使用する既存のsomaモデルとは異なり、このモデルは公開データセットオブジェクト365でのみトレーニングされるため、このアプローチの再現性が保証される。
関連論文リスト
- DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding [35.522774800394664]
IDEA Researchが開発した統合オブジェクト中心ビジョンモデルであるDINO-Xを紹介する。
DINO-Xは、オープンワールドオブジェクト理解のためのオブジェクトレベルの表現を追求するために、Grounding DINO 1.5と同じTransformerベースのエンコーダデコーダアーキテクチャを使用している。
我々は,プロンプトのないオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し,ユーザがプロンプトを提供することなく,画像中のあらゆるものを検出できるようにする。
論文 参考訳(メタデータ) (2024-11-21T17:42:20Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - BigDetection: A Large-scale Benchmark for Improved Object Detector
Pre-training [44.32782190757813]
我々はBigDetectionと呼ばれる新しい大規模ベンチマークを構築した。
私たちのデータセットには600のオブジェクトカテゴリがあり、3.4M以上のトレーニングイメージと36Mのバウンディングボックスが含まれています。
論文 参考訳(メタデータ) (2022-03-24T17:57:29Z) - Few-Shot Batch Incremental Road Object Detection via Detector Fusion [0.3441021278275805]
インド・ドライビング・データセット(IDD)のデータを用いた段階的数ショット道路物体検出のバッチ化問題に取り組む。
我々のアプローチであるDualFusionは、非常に限られたデータで希少な物体を検出する方法を学ぶために、オブジェクト検出器を組み合わせる。
我々は現在最先端の小説クラスのパフォーマンスを6.6倍以上に上回り、9.9の新規APスコアを達成している。
論文 参考訳(メタデータ) (2021-08-18T08:57:04Z) - Learning Delicate Local Representations for Multi-Person Pose Estimation [77.53144055780423]
我々はResidual Steps Network (RSN) と呼ばれる新しい手法を提案する。
RSNは同じ空間サイズ(イントラレベルの特徴)の機能を効率よく集約し、微妙な局所表現を得る。
当社のアプローチは,COCO Keypoint Challenge 2019で第1位を獲得しました。
論文 参考訳(メタデータ) (2020-03-09T10:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。