論文の概要: DI-MaskDINO: A Joint Object Detection and Instance Segmentation Model
- arxiv url: http://arxiv.org/abs/2410.16707v1
- Date: Tue, 22 Oct 2024 05:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:52.832197
- Title: DI-MaskDINO: A Joint Object Detection and Instance Segmentation Model
- Title(参考訳): DI-MaskDino: オブジェクト検出とインスタンス分割モデル
- Authors: Zhixiong Nan, Xianghong Li, Tao Xiang, Jifeng Dai,
- Abstract要約: MaskDinoの開始変圧器デコーダ層から中間結果を調べる際に, 物体検出遅延がインスタンスセグメンテーションの遅れ(すなわち, 性能不均衡)の原因となる。
本稿では,DI-MaskDINOモデルを提案する。その中核となる考え方は,検出・セグメンテーションの不均衡を緩和し,最終的な性能を改善することである。
DI-MaskDINOはCOCOとBDD100Kベンチマークで既存のジョイントオブジェクト検出とインスタンスセグメンテーションモデルを上回っている。
- 参考スコア(独自算出の注目度): 67.56918651825056
- License:
- Abstract: This paper is motivated by an interesting phenomenon: the performance of object detection lags behind that of instance segmentation (i.e., performance imbalance) when investigating the intermediate results from the beginning transformer decoder layer of MaskDINO (i.e., the SOTA model for joint detection and segmentation). This phenomenon inspires us to think about a question: will the performance imbalance at the beginning layer of transformer decoder constrain the upper bound of the final performance? With this question in mind, we further conduct qualitative and quantitative pre-experiments, which validate the negative impact of detection-segmentation imbalance issue on the model performance. To address this issue, this paper proposes DI-MaskDINO model, the core idea of which is to improve the final performance by alleviating the detection-segmentation imbalance. DI-MaskDINO is implemented by configuring our proposed De-Imbalance (DI) module and Balance-Aware Tokens Optimization (BATO) module to MaskDINO. DI is responsible for generating balance-aware query, and BATO uses the balance-aware query to guide the optimization of the initial feature tokens. The balance-aware query and optimized feature tokens are respectively taken as the Query and Key&Value of transformer decoder to perform joint object detection and instance segmentation. DI-MaskDINO outperforms existing joint object detection and instance segmentation models on COCO and BDD100K benchmarks, achieving +1.2 $AP^{box}$ and +0.9 $AP^{mask}$ improvements compared to SOTA joint detection and segmentation model MaskDINO. In addition, DI-MaskDINO also obtains +1.0 $AP^{box}$ improvement compared to SOTA object detection model DINO and +3.0 $AP^{mask}$ improvement compared to SOTA segmentation model Mask2Former.
- Abstract(参考訳): 本論文は,MaskDinoの初期変圧器デコーダ層(SOTAモデル,関節検出・セグメント化)の中間結果の調査において,インスタンスセグメンテーション(すなわち,性能不均衡)よりも遅れた物体検出ラグの性能を,興味深い現象に動機付けている。
この現象は、トランスフォーマーデコーダの開始層におけるパフォーマンスの不均衡は、最終的なパフォーマンスの上限を制限しているのか?
この疑問を念頭に、我々はさらに定性的かつ定量的な事前実験を行い、モデル性能に対する検出・分離の不均衡問題の負の影響を検証した。
そこで本研究では,DI-MaskDINOモデルを提案する。
DI-MaskDINO は提案した De-Im Balance (DI) モジュールと Balance-Aware Tokens Optimization (BATO) モジュールを MaskDINO に設定することで実装される。
DIはバランスアウェアなクエリを生成し、BATOはバランスアウェアなクエリを使用して初期機能トークンの最適化をガイドします。
バランスアウェアなクエリと最適化された機能トークンはそれぞれ、コンバータデコーダのQueryとKey&Valueとして、ジョイントオブジェクト検出とインスタンスセグメンテーションを実行する。
DI-MaskDINOは、COCOとBDD100Kベンチマークで既存のジョイントオブジェクト検出とインスタンスセグメンテーションモデルより優れており、SOTAのジョイント検出とセグメンテーションモデルであるMaskDINOと比較して、+1.2$AP^{box}$と+0.9$AP^{mask}$を達成している。
さらに、DI-MaskDINOは、SOTAオブジェクト検出モデルDINOと比較して+1.0 $AP^{box}$改善と、SOTAセグメンテーションモデルMask2Formerと比較して+3.0 $AP^{mask}$改善を得る。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation [14.931551206723041]
Weakly Supervised Semantic (WSSS) は、画像レベルのラベルなどの弱い監督を、セグメンテーションモデルをトレーニングするために採用している。
我々はWSSSに適した高度なアンサンブルアプローチであるORANDNetを提案する。
論文 参考訳(メタデータ) (2024-06-28T03:58:02Z) - MOD-CL: Multi-label Object Detection with Constrained Loss [3.92610460921618]
本稿では,最先端オブジェクト検出モデルYOLOv8上に構築されたマルチラベルオブジェクト検出モデルである$mathrmMOD_YOLO$を使用する。
タスク1では、オブジェクト検出プロセスの後に続く2つの新しいモデルであるCorrector ModelとBlender Modelを導入し、より制約のある出力を生成する。
Task 2では、Product T-Normを使った$mathrmMOD_YOLO$アーキテクチャに制約付き損失が組み込まれています。
論文 参考訳(メタデータ) (2024-01-31T23:13:20Z) - Decoupled DETR For Few-shot Object Detection [4.520231308678286]
サンプル不均衡と弱い特徴伝搬の深刻な問題に対処するためにFSODモデルを改善した。
出力機能としてデコーダ層を動的に融合できる統一デコーダモジュールを構築しました。
提案するモジュールは,微調整とメタラーニングの両方のパラダイムにおいて,5%から10%の安定的な改善を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-20T07:10:39Z) - MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic
Segmentation [38.42077782990957]
マルチモーダル・アン教師付きドメイン適応(MM-UDA)は、高価なポイントワイドアノテーションを使わずに自律システムに意味理解を組み込むための実用的なソリューションである。
従来のMM-UDAメソッドは、クラス不均衡な性能に悩まされ、実際のアプリケーションでの利用を制限する。
本稿では,レアオブジェクトの性能向上を目的としたマルチモーダルプライオリティ・エイドド(MoPA)ドメイン適応を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:30:21Z) - ARS-DETR: Aspect Ratio-Sensitive Detection Transformer for Aerial Oriented Object Detection [55.291579862817656]
既存のオブジェクト指向オブジェクト検出手法では、モデルの性能を測定するために計量AP$_50$が一般的である。
我々は、AP$_50$は本来、角度偏差に大きな耐性があるため、オブジェクト指向物体検出には適さないと主張している。
本稿では,ARS-DETR(Aspect Ratio Sensitive Oriented Object Detector with Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-09T02:20:56Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector [156.43671738038657]
本稿では,GCoNet+と呼ばれる新しいグループ協調学習ネットワークを提案する。
GCoNet+は自然界における共存対象を効果的かつ効率的に識別することができる。
論文 参考訳(メタデータ) (2022-05-30T23:49:19Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。