論文の概要: DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object
Detection
- arxiv url: http://arxiv.org/abs/2203.03605v1
- Date: Mon, 7 Mar 2022 18:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:10:35.350775
- Title: DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object
Detection
- Title(参考訳): DINO: エンドツーエンドオブジェクト検出のためのデノイングアンカーボックスの改善によるDETR
- Authors: Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel
M. Ni, Heung-Yeung Shum
- Abstract要約: DINO(textbfDETR with textbfImproved detextbfNoising anchtextbfOr box)は最先端のオブジェクト検出器である。
- 参考スコア(独自算出の注目度): 38.32366373760894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DINO (\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising
anch\textbf{O}r boxes), a state-of-the-art end-to-end object detector. % in
this paper. DINO improves over previous DETR-like models in performance and
efficiency by using a contrastive way for denoising training, a mixed query
selection method for anchor initialization, and a look forward twice scheme for
box prediction. DINO achieves $48.3$AP in $12$ epochs and $51.0$AP in $36$
epochs on COCO with a ResNet-50 backbone and multi-scale features, yielding a
significant improvement of $\textbf{+4.9}$\textbf{AP} and
$\textbf{+2.4}$\textbf{AP}, respectively, compared to DN-DETR, the previous
best DETR-like model. DINO scales well in both model size and data size.
Without bells and whistles, after pre-training on the Objects365 dataset with a
SwinL backbone, DINO obtains the best results on both COCO \texttt{val2017}
($\textbf{63.2}$\textbf{AP}) and \texttt{test-dev}
(\textbf{$\textbf{63.3}$AP}). Compared to other models on the leaderboard, DINO
significantly reduces its model size and pre-training data size while achieving
better results. Our code will be available at
\url{https://github.com/IDEACVR/DINO}.
- Abstract(参考訳): DINO(\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r box)は最先端のエンドツーエンドオブジェクト検出器である。
%であった。
dinoは従来のdetrライクなモデルよりも性能と効率を向上し、同期トレーニングの対照的な方法、アンカー初期化のための混合クエリ選択法、ボックス予測のための前方2重スキームを用いる。
DINO は ResNet-50 のバックボーンとマルチスケール機能を備えた COCO 上で 18.3$AP in 12$ epochs と 51.0$AP in 36$ epochs を達成し、過去最高の DETR モデルである DN-DETR に対して $\textbf{+4.9}$\textbf{AP} と $\textbf{+2.4}$\textbf{AP} を大幅に改善した。
DINOはモデルサイズとデータサイズの両方でうまくスケールする。
SwinLのバックボーンでObjects365データセットを事前トレーニングした後、DINOはCOCO \texttt{val2017} ($\textbf{63.2}$\textbf{AP})と \texttt{test-dev} (\textbf{$\textbf{63.3}$AP})の両方で最高の結果を得る。
リーダーボードの他のモデルと比較して、dinoはモデルサイズと事前トレーニングデータサイズを大幅に削減し、より良い結果を得る。
私たちのコードは \url{https://github.com/IDEACVR/DINO} で利用可能です。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors [58.661454334877256]
薬物-標的結合親和性(DTA)予測は、薬物発見に不可欠である。
DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。
事前学習したDTA予測モデルに適用した非表現埋め込みに基づく検索手法である$k$NN-DTAを提案する。
論文 参考訳(メタデータ) (2024-07-21T15:49:05Z) - REST: Enhancing Group Robustness in DNNs through Reweighted Sparse
Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。
しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-12-05T16:27:54Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z) - Data-Centric Debugging: mitigating model failures via targeted data
collection [4.599792546344752]
トレーニングセットがデプロイされているすべての設定を適切にカバーしていない場合、ディープニューラルネットワークは、現実世界では信頼性が低い可能性がある。
本稿では,従来のテストセットの性能を維持しつつ,$mathcalE$のモデル性能を体系的に改善できるモデルデバッグの一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T19:44:02Z) - DN-DETR: Accelerate DETR Training by Introducing Query DeNoising [20.589146395352714]
本稿では,DETR(Detection TRansformer)トレーニングを高速化するための新しいトレーニング手法を提案する。
緩やかな収束は二部グラフマッチングの不安定性に起因することを示す。
提案手法は,トランスフォーマーデコーダにノイズを付加した接地境界ボックスを供給し,元のボックスを再構築するモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-02T18:50:23Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。