Fugu-MT 論文翻訳(概要): Align-DETR: Enhancing End-to-end Object Detection with Aligned Loss

論文の概要: Align-DETR: Enhancing End-to-end Object Detection with Aligned Loss

arxiv url: http://arxiv.org/abs/2304.07527v2
Date: Mon, 23 Dec 2024 11:30:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.409652
Title: Align-DETR: Enhancing End-to-end Object Detection with Aligned Loss
Title（参考訳）: Align-DETR:aligned Lossによるエンドツーエンドオブジェクト検出の強化
Authors: Zhi Cai, Songtao Liu, Guodong Wang, Zheng Ge, Xiangyu Zhang, Di Huang,
Abstract要約: 本稿では,モデル内の2つの重要な相違点を同定する。両課題間の相違を解決するために,Align Lossと呼ばれる新たな損失関数を導入する。提案手法は,ResNet-50バックボーンを用いたH-DETRベースライン上で49.3% (+0.6) APを実現する。
参考スコア（独自算出の注目度）: 35.11300328598727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: DETR has set up a simple end-to-end pipeline for object detection by formulating this task as a set prediction problem, showing promising potential. Despite its notable advancements, this paper identifies two key forms of misalignment within the model: classification-regression misalignment and cross-layer target misalignment. Both issues impede DETR's convergence and degrade its overall performance. To tackle both issues simultaneously, we introduce a novel loss function, termed as Align Loss, designed to resolve the discrepancy between the two tasks. Align Loss guides the optimization of DETR through a joint quality metric, strengthening the connection between classification and regression. Furthermore, it incorporates an exponential down-weighting term to facilitate a smooth transition from positive to negative samples. Align-DETR also employs many-to-one matching for supervision of intermediate layers, akin to the design of H-DETR, which enhances robustness against instability. We conducted extensive experiments, yielding highly competitive results. Notably, our method achieves a 49.3% (+0.6) AP on the H-DETR baseline with the ResNet-50 backbone. It also sets a new state-of-the-art performance, reaching 50.5% AP in the 1x setting and 51.7% AP in the 2x setting, surpassing several strong competitors. Our code is available at https://github.com/FelixCaae/AlignDETR.
Abstract（参考訳）: DETRは、このタスクをセット予測問題として定式化し、有望なポテンシャルを示すことによって、オブジェクト検出のためのシンプルなエンドツーエンドパイプラインを構築した。本論文は,その顕著な進歩にもかかわらず,本モデルにおける2つの重要なミスアライメント,すなわち分類-回帰的ミスアライメントと層間目標ミスアライメントを識別する。どちらの問題もDETRの収束を妨げ、全体的な性能を低下させた。両課題を同時に解決するために,両課題間の相違を解決するために,Align Lossと呼ばれる新たな損失関数を導入する。 Align Loss は DETR の最適化を共同品質指標を通じて導き、分類と回帰の関連性を強化する。さらに、指数的な下降重み付け項を組み込んで、正のサンプルから負のサンプルへの滑らかな遷移を促進する。 Align-DETRはまた、H-DETRの設計と同様、中間層の監視に多対一のマッチングを採用しており、不安定性に対する堅牢性を高めている。我々は幅広い実験を行い、非常に競争力のある結果を得た。特に,H-DETRベースライン上でResNet-50バックボーンを用いて49.3%(+0.6)のAPを実現する。また、新しい最先端のパフォーマンスを設定し、1x設定では50.5%AP、2x設定では51.7%APに到達し、強力なライバル数を上回った。私たちのコードはhttps://github.com/FelixCaae/AlignDETR.comで利用可能です。

関連論文リスト

Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-04T11:09:47Z)
Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-07-16T13:17:07Z)
Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文参考訳（メタデータ） (2024-05-17T04:37:44Z)
Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement [19.277560848076984]
2段階の選択戦略は、選択したクエリとオブジェクトのミスマッチによるスケールバイアスと冗長性をもたらす。本稿では,フィルタされた識別クエリのみにトランスフォーマーを符号化する階層型サリエンスフィルタリング精細化を提案する。提案されたSalience DETRは、課題固有の3つのデータセットに対して、+4.0% AP、+0.2% AP、+4.4% APを大幅に改善する。
論文参考訳（メタデータ） (2024-03-24T13:01:57Z)
Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。 OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-29T09:27:40Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文参考訳（メタデータ） (2023-10-13T04:48:32Z)
Revisiting DETR Pre-training for Object Detection [24.372444866927538]
完全データ条件下での堅牢なDETRモデルの性能向上におけるDETRegの欠点について検討する。我々は、改良されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、目立った拡張をもたらす、Simple Self-trainingという最適化されたアプローチを採用しています。これらの努力の結果、COCO valセットのAPスコアは59.3%で、事前トレーニングなしで$mathcalH$-Deformable-DETR + Swin-Lを1.4%で上回った。
論文参考訳（メタデータ） (2023-08-02T17:39:30Z)
Selecting Learnable Training Samples is All DETRs Need in Crowded Pedestrian Detection [72.97320260601347]
混雑した歩行者検出では, サンプル選択法が不適切であるため, DETRの性能は相変わらず不満足である。制約誘導ラベル割り当てスキーム(CGLA)からなる群集歩行者のサンプル選択を提案する。実験の結果,提案したSSCPは推論のオーバーヘッドを発生させることなく,ベースラインを効果的に改善することがわかった。
論文参考訳（メタデータ） (2023-05-18T08:28:01Z)
Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文参考訳（メタデータ） (2023-05-12T16:42:54Z)
End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。 ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文参考訳（メタデータ） (2023-05-01T06:07:11Z)
Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。 12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文参考訳（メタデータ） (2023-04-10T17:55:37Z)
Q-DETR: An Efficient Low-Bit Quantized Detection Transformer [50.00784028552792]
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。本研究では,教師情報を蒸留所要の機能に効果的に転送し,条件情報エントロピーを最小化する,フォアグラウンド対応クエリマッチング手法を提案する。
論文参考訳（メタデータ） (2023-04-01T08:05:14Z)
Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文参考訳（メタデータ） (2022-12-15T05:09:11Z)
DETRs with Hybrid Matching [21.63116788914251]
1対1のセットマッチングは、DETRがエンドツーエンドの機能を確立するための鍵となる設計である。本稿では,従来の1対1のマッチングブランチと,トレーニング中に補助的な1対1のマッチングブランチを組み合わせるハイブリッドマッチング方式を提案する。
論文参考訳（メタデータ） (2022-07-26T17:52:14Z)
Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文参考訳（メタデータ） (2022-03-14T06:50:51Z)
Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文参考訳（メタデータ） (2021-07-07T00:52:16Z)
Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。 ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文参考訳（メタデータ） (2021-03-18T08:47:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。