論文の概要: D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement
- arxiv url: http://arxiv.org/abs/2410.13842v1
- Date: Thu, 17 Oct 2024 17:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:23.800562
- Title: D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement
- Title(参考訳): D-FINE:DTRにおける粒度分布の微細化としての回帰タスクの再定義
- Authors: Yansong Peng, Hebei Li, Peixi Wu, Yueyi Zhang, Xiaoyan Sun, Feng Wu,
- Abstract要約: D-FINEは、優れた位置決め精度を実現する強力なリアルタイム物体検出器である。
D-FINEは、FDRとGlobal Optimal Localization Self-Distillation(GO-LSD)の2つの重要なコンポーネントから構成される。
Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
- 参考スコア(独自算出の注目度): 37.78880948551719
- License:
- Abstract: We introduce D-FINE, a powerful real-time object detector that achieves outstanding localization precision by redefining the bounding box regression task in DETR models. D-FINE comprises two key components: Fine-grained Distribution Refinement (FDR) and Global Optimal Localization Self-Distillation (GO-LSD). FDR transforms the regression process from predicting fixed coordinates to iteratively refining probability distributions, providing a fine-grained intermediate representation that significantly enhances localization accuracy. GO-LSD is a bidirectional optimization strategy that transfers localization knowledge from refined distributions to shallower layers through self-distillation, while also simplifying the residual prediction tasks for deeper layers. Additionally, D-FINE incorporates lightweight optimizations in computationally intensive modules and operations, achieving a better balance between speed and accuracy. Specifically, D-FINE-L / X achieves 54.0% / 55.8% AP on the COCO dataset at 124 / 78 FPS on an NVIDIA T4 GPU. When pretrained on Objects365, D-FINE-L / X attains 57.1% / 59.3% AP, surpassing all existing real-time detectors. Furthermore, our method significantly enhances the performance of a wide range of DETR models by up to 5.3% AP with negligible extra parameters and training costs. Our code and pretrained models: https://github.com/Peterande/D-FINE.
- Abstract(参考訳): D-FINEはDTRモデルにおける境界ボックス回帰タスクを再定義することにより、優れた位置決め精度を実現する強力なリアルタイムオブジェクト検出器である。
D-FINEは、FDRとGO-LSD(Global Optimal Localization Self-Distillation)の2つの重要なコンポーネントから構成される。
FDRは、回帰過程を固定座標の予測から確率分布の反復的精製へと変換し、局所化精度を大幅に向上させる微細な中間表現を提供する。
GO-LSDは、より深い層に対する残差予測タスクを簡素化しつつ、洗練された分布からより浅い層への局所化知識を自己蒸留により伝達する双方向最適化手法である。
さらに、D-FINEは計算集約的なモジュールや演算に軽量な最適化を取り入れており、速度と精度のバランスが良くなっている。
具体的には、D-FINE-L / Xは、NVIDIA T4 GPU上の124 / 78 FPSのCOCOデータセット上で54.0% / 55.8%APを達成する。
Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
さらに,提案手法は,最大5.3%のAPを無視可能な余剰パラメータとトレーニングコストで,広範囲のDETRモデルの性能を著しく向上させる。
私たちのコードと事前訓練されたモデル:https://github.com/Peterande/D-FINE。
関連論文リスト
- FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation [11.039105169475484]
既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。
空間性に基づいたSmallDepthを最初に設計した。
第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。
第3に,固定されたSmallDepthの場合の各層が異なるコンテキスト情報を知覚する能力を向上させるために,ピラミッド損失を提案する。
第4に,SmallDepthの精度をさらに向上するため,提案した関数近似損失(APX)を応用した。
論文 参考訳(メタデータ) (2024-05-17T16:22:52Z) - Align-DETR: Improving DETR with Simple IoU-aware BCE loss [32.13866392998818]
そこで本稿では, 誤り訂正問題を定量的に評価するために, ベストレグレッションされたサンプルをリコールする計量法を提案する。
提案した損失であるIA-BCEは、DeTRのトレーニングをガイドし、分類スコアとローカライゼーション精度の強い相関関係を構築する。
クエリのスパーシリティによって引き起こされるサンプル品質の劇的な低下を克服するために,プライマリサンプル重み付け機構を導入する。
論文 参考訳(メタデータ) (2023-04-15T10:24:51Z) - Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:05:14Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Physics-aware deep neural networks for surrogate modeling of turbulent
natural convection [0.0]
Rayleigh-B'enard乱流流に対するPINNのサーロゲートモデルの使用を検討する。
標準ピンの精度が低いゾーンであるトレーニング境界に近い正規化として、どのように機能するかを示す。
50億のDNS座標全体のサロゲートの予測精度は、相対的なL2ノルムで[0.3% -- 4%]の範囲のすべてのフロー変数のエラーをもたらします。
論文 参考訳(メタデータ) (2021-03-05T09:48:57Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。