Fugu-MT 論文翻訳(概要): DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

論文の概要: DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

arxiv url: http://arxiv.org/abs/2203.03605v1
Date: Mon, 7 Mar 2022 18:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 17:10:35.350775
Title: DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
Title（参考訳）: DINO: エンドツーエンドオブジェクト検出のためのデノイングアンカーボックスの改善によるDETR
Authors: Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum
Abstract要約: DINO(textbfDETR with textbfImproved detextbfNoising anchtextbfOr box)は最先端のオブジェクト検出器である。
参考スコア（独自算出の注目度）: 38.32366373760894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present DINO (\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes), a state-of-the-art end-to-end object detector. % in this paper. DINO improves over previous DETR-like models in performance and efficiency by using a contrastive way for denoising training, a mixed query selection method for anchor initialization, and a look forward twice scheme for box prediction. DINO achieves $48.3$AP in $12$ epochs and $51.0$AP in $36$ epochs on COCO with a ResNet-50 backbone and multi-scale features, yielding a significant improvement of $\textbf{+4.9}$\textbf{AP} and $\textbf{+2.4}$\textbf{AP}, respectively, compared to DN-DETR, the previous best DETR-like model. DINO scales well in both model size and data size. Without bells and whistles, after pre-training on the Objects365 dataset with a SwinL backbone, DINO obtains the best results on both COCO \texttt{val2017} ($\textbf{63.2}$\textbf{AP}) and \texttt{test-dev} (\textbf{$\textbf{63.3}$AP}). Compared to other models on the leaderboard, DINO significantly reduces its model size and pre-training data size while achieving better results. Our code will be available at \url{https://github.com/IDEACVR/DINO}.
Abstract（参考訳）: DINO(\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r box)は最先端のエンドツーエンドオブジェクト検出器である。 %であった。 dinoは従来のdetrライクなモデルよりも性能と効率を向上し、同期トレーニングの対照的な方法、アンカー初期化のための混合クエリ選択法、ボックス予測のための前方2重スキームを用いる。 DINO は ResNet-50 のバックボーンとマルチスケール機能を備えた COCO 上で 18.3$AP in 12$ epochs と 51.0$AP in 36$ epochs を達成し、過去最高の DETR モデルである DN-DETR に対して $\textbf{+4.9}$\textbf{AP} と $\textbf{+2.4}$\textbf{AP} を大幅に改善した。 DINOはモデルサイズとデータサイズの両方でうまくスケールする。 SwinLのバックボーンでObjects365データセットを事前トレーニングした後、DINOはCOCO \texttt{val2017} ($\textbf{63.2}$\textbf{AP})と \texttt{test-dev} (\textbf{$\textbf{63.3}$AP})の両方で最高の結果を得る。リーダーボードの他のモデルと比較して、dinoはモデルサイズと事前トレーニングデータサイズを大幅に削減し、より良い結果を得る。私たちのコードは \url{https://github.com/IDEACVR/DINO} で利用可能です。

関連論文リスト

VAE-DNN: Energy-Efficient Trainable-by-Parts Surrogate Model For Parametric Partial Differential Equations [49.1574468325115]
本稿では, 前方および逆パラメータ化非線形偏微分方程式を解くための, トレーニング可能な各部分サロゲートモデルを提案する。提案手法はエンコーダを用いて高次元の入力$y(bmx)$を低次元の潜在空間である$bmmu_bmphi_y$に還元する。完全連結ニューラルネットワークを用いて、Pの潜伏空間に$bmmu_bmphi_y$、$bmmu_bmphi_h$をマッピングする。
論文参考訳（メタデータ） (2025-08-05T18:37:32Z)
$\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens [51.65485693709418]
トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。本稿では、このフレームワークを拡張した、$textbfm$odular $textbfw$orld $textbfm$odelを紹介します。 $textMtext3$は、エージェントのパフォーマンスを向上させるために、既存の文献からいくつかの改善を実現している。
論文参考訳（メタデータ） (2025-02-17T08:06:10Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Exploiting Pre-trained Models for Drug Target Affinity Prediction with Nearest Neighbors [58.661454334877256]
薬物-標的結合親和性(DTA)予測は、薬物発見に不可欠である。 DTA予測へのディープラーニング手法の適用にもかかわらず、達成された精度は依然として準最適である。事前学習したDTA予測モデルに適用した非表現埋め込みに基づく検索手法である$k$NN-DTAを提案する。
論文参考訳（メタデータ） (2024-07-21T15:49:05Z)
ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization [59.72782742378666]
本稿では,Reward-based Noise Optimization (ReNO) を提案する。 20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
論文参考訳（メタデータ） (2024-06-06T17:56:40Z)
REST: Enhancing Group Robustness in DNNs through Reweighted Sparse Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文参考訳（メタデータ） (2023-12-05T16:27:54Z)
Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-02-09T13:46:42Z)
Data-Centric Debugging: mitigating model failures via targeted data collection [4.599792546344752]
トレーニングセットがデプロイされているすべての設定を適切にカバーしていない場合、ディープニューラルネットワークは、現実世界では信頼性が低い可能性がある。本稿では,従来のテストセットの性能を維持しつつ,$mathcalE$のモデル性能を体系的に改善できるモデルデバッグの一般的な手法を提案する。
論文参考訳（メタデータ） (2022-11-17T19:44:02Z)
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising [20.589146395352714]
本稿では,DETR(Detection TRansformer)トレーニングを高速化するための新しいトレーニング手法を提案する。緩やかな収束は二部グラフマッチングの不安定性に起因することを示す。提案手法は,トランスフォーマーデコーダにノイズを付加した接地境界ボックスを供給し,元のボックスを再構築するモデルを訓練する。
論文参考訳（メタデータ） (2022-03-02T18:50:23Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。