論文の概要: MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
- arxiv url: http://arxiv.org/abs/2503.01463v1
- Date: Mon, 03 Mar 2025 12:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:22.069362
- Title: MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
- Title(参考訳): MI-DETR:マルチ時間問い合わせ機構を持つ物体検出モデル
- Authors: Zhixiong Nan, Xianghong Li, Jifeng Dai, Tao Xiang,
- Abstract要約: 並列マルチ時間問い合わせ(MI)機構を備えた新しいデコーダアーキテクチャを提案する。
我々のMIベースモデルであるMI-DETRはCOCOベンチマークで既存のDETRライクなモデルよりも優れています。
診断と可視化の一連の実験は、MIの有効性、合理性、解釈可能性を示している。
- 参考スコア(独自算出の注目度): 67.56918651825056
- License:
- Abstract: Based on analyzing the character of cascaded decoder architecture commonly adopted in existing DETR-like models, this paper proposes a new decoder architecture. The cascaded decoder architecture constrains object queries to update in the cascaded direction, only enabling object queries to learn relatively-limited information from image features. However, the challenges for object detection in natural scenes (e.g., extremely-small, heavily-occluded, and confusingly mixed with the background) require an object detection model to fully utilize image features, which motivates us to propose a new decoder architecture with the parallel Multi-time Inquiries (MI) mechanism. MI enables object queries to learn more comprehensive information, and our MI based model, MI-DETR, outperforms all existing DETR-like models on COCO benchmark under different backbones and training epochs, achieving +2.3 AP and +0.6 AP improvements compared to the most representative model DINO and SOTA model Relation-DETR under ResNet-50 backbone. In addition, a series of diagnostic and visualization experiments demonstrate the effectiveness, rationality, and interpretability of MI.
- Abstract(参考訳): 本稿では,既存のDETR型モデルで一般的に採用されているカスケードデコーダアーキテクチャの特徴を解析し,新しいデコーダアーキテクチャを提案する。
カスケードデコーダアーキテクチャは、オブジェクトクエリにカスケード方向の更新を制約し、画像特徴から比較的限られた情報しか学習できない。
しかし、自然界におけるオブジェクト検出の課題(例:極小、重閉塞、背景との混在)は、画像特徴を完全に活用するためにオブジェクト検出モデルが必要であるため、並列なマルチ時間問い合わせ(MI)機構を備えた新しいデコーダアーキテクチャを提案する動機となっている。
MIはオブジェクトクエリによりより包括的な情報を学習し、MIベースのモデルであるMI-DETRはCOCOベンチマーク上の既存のDETRのようなモデルを異なるバックボーンとトレーニングエポックで上回り、最も代表的なモデルであるDINOやSOTAモデルと比較して+2.3 APと+0.6 APの改善を達成した。
さらに、診断および可視化実験により、MIの有効性、合理性、解釈可能性を示す。
関連論文リスト
- YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary [12.39040757106137]
この問題に対処するために,革新的なRetriever-Dictionary (RD) モジュールを導入する。
このアーキテクチャにより、YOLOベースのモデルは、データセットの洞察を含むDictionaryから機能を効率的に取得できる。
実験の結果,RDを用いることでモデル性能が有意に向上し,平均平均精度が3%以上向上することがわかった。
論文 参考訳(メタデータ) (2024-10-20T09:38:58Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Unsupervised Multi-object Segmentation Using Attention and Soft-argmax [0.6853165736531939]
教師なしオブジェクト中心表現学習とマルチオブジェクト検出とセグメンテーションのための新しいアーキテクチャを提案する。
このアーキテクチャは、複雑な合成ベンチマークにおける技術状況を大幅に上回り、実世界のトラフィックビデオへの応用例を提供する。
論文 参考訳(メタデータ) (2022-05-26T10:58:48Z) - Triple-level Model Inferred Collaborative Network Architecture for Video
Deraining [43.06607185181434]
我々は,協調最適化と自動探索機構を用いてネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発した。
我々のモデルは、最先端の作業よりも忠実度と時間的一貫性が著しく向上したことを示している。
論文 参考訳(メタデータ) (2021-11-08T13:09:00Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-10T19:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。