論文の概要: MOD-CL: Multi-label Object Detection with Constrained Loss
- arxiv url: http://arxiv.org/abs/2403.07885v1
- Date: Wed, 31 Jan 2024 23:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:27:08.981177
- Title: MOD-CL: Multi-label Object Detection with Constrained Loss
- Title(参考訳): MOD-CL:制約付きロスによる複数ラベルオブジェクト検出
- Authors: Sota Moriyama, Koji Watanabe, Katsumi Inoue, Akihiro Takemura,
- Abstract要約: 本稿では,最先端オブジェクト検出モデルYOLOv8上に構築されたマルチラベルオブジェクト検出モデルである$mathrmMOD_YOLO$を使用する。
タスク1では、オブジェクト検出プロセスの後に続く2つの新しいモデルであるCorrector ModelとBlender Modelを導入し、より制約のある出力を生成する。
Task 2では、Product T-Normを使った$mathrmMOD_YOLO$アーキテクチャに制約付き損失が組み込まれています。
- 参考スコア(独自算出の注目度): 3.92610460921618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MOD-CL, a multi-label object detection framework that utilizes constrained loss in the training process to produce outputs that better satisfy the given requirements. In this paper, we use $\mathrm{MOD_{YOLO}}$, a multi-label object detection model built upon the state-of-the-art object detection model YOLOv8, which has been published in recent years. In Task 1, we introduce the Corrector Model and Blender Model, two new models that follow after the object detection process, aiming to generate a more constrained output. For Task 2, constrained losses have been incorporated into the $\mathrm{MOD_{YOLO}}$ architecture using Product T-Norm. The results show that these implementations are instrumental to improving the scores for both Task 1 and Task 2.
- Abstract(参考訳): トレーニングプロセスにおける制約付き損失を利用して、与えられた要求を満たす出力を生成するマルチラベルオブジェクト検出フレームワークであるMOD-CLを紹介する。
本稿では, 最先端のオブジェクト検出モデル YOLOv8 上に構築されたマルチラベルオブジェクト検出モデルである $\mathrm{MOD_{YOLO}}$ を用いている。
タスク1では、オブジェクト検出プロセスの後に続く2つの新しいモデルであるCorrector ModelとBlender Modelを導入し、より制約のある出力を生成する。
Task 2では、Product T-Normを使用した$\mathrm{MOD_{YOLO}}$アーキテクチャに制約付き損失が組み込まれています。
その結果,これらの実装はタスク1とタスク2の両方のスコアを改善するのに有効であることが示唆された。
関連論文リスト
- DI-MaskDINO: A Joint Object Detection and Instance Segmentation Model [67.56918651825056]
MaskDinoの開始変圧器デコーダ層から中間結果を調べる際に, 物体検出遅延がインスタンスセグメンテーションの遅れ(すなわち, 性能不均衡)の原因となる。
本稿では,DI-MaskDINOモデルを提案する。その中核となる考え方は,検出・セグメンテーションの不均衡を緩和し,最終的な性能を改善することである。
DI-MaskDINOはCOCOとBDD100Kベンチマークで既存のジョイントオブジェクト検出とインスタンスセグメンテーションモデルを上回っている。
論文 参考訳(メタデータ) (2024-10-22T05:22:49Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - TIDE: Test Time Few Shot Object Detection [11.036762620105383]
Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。
FSODの最近の進歩は、メタ学習やデータ拡張を通じて、いくつかのオブジェクトに基づいてベースモデルを微調整することに焦点を当てている。
我々は、新しいFSODタスクを定式化し、TIDE(Test TIme Few Shot Detection)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-30T09:00:44Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - Few-shot Object Counting and Detection [25.61294147822642]
我々は、ターゲットオブジェクトクラスのいくつかの例のバウンディングボックスを考慮に入れ、ターゲットクラスのすべてのオブジェクトをカウントし、検出する新しいタスクに取り組む。
このタスクは、数ショットのオブジェクトカウントと同じ監督を共有しますが、オブジェクトのバウンディングボックスと総オブジェクトカウントを出力します。
本稿では,新しい2段階トレーニング戦略と,新しい不確実性に留意した小ショットオブジェクト検出器であるCounting-DETRを紹介する。
論文 参考訳(メタデータ) (2022-07-22T10:09:18Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。