Fugu-MT 論文翻訳(概要): Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024

論文の概要: Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024

arxiv url: http://arxiv.org/abs/2406.09201v3
Date: Fri, 21 Jun 2024 08:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 18:57:27.944157
Title: Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024
Title（参考訳）: オブジェクト検出の強化:V3Det Challenge 2024におけるVast Vocabulary Object Detection Trackの検討
Authors: Peixi Wu, Bosong Chai, Xuan Nie, Longquan Yan, Zeyu Wang, Qifan Zhou, Boning Wang, Yansong Peng, Hebei Li,
Abstract要約: 本研究の成果は, 最大語彙視覚検出課題を対象としたVast Vocabulary Visual Detectionのデータセットから得られたものである。我々のモデルは,V3Det Challenge 2024のVast Vocabulary Object Detection(Supervised)トラックとOpen Vocabulary Object Detection(OVD)トラックの両方において,ベースラインを改良し,Leadboardの優れたランキングを達成した。
参考スコア（独自算出の注目度）: 3.5043076887736198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this technical report, we present our findings from the research conducted on the Vast Vocabulary Visual Detection (V3Det) dataset for Supervised Vast Vocabulary Visual Detection task. How to deal with complex categories and detection boxes has become a difficulty in this track. The original supervised detector is not suitable for this task. We have designed a series of improvements, including adjustments to the network structure, changes to the loss function, and design of training strategies. Our model has shown improvement over the baseline and achieved excellent rankings on the Leaderboard for both the Vast Vocabulary Object Detection (Supervised) track and the Open Vocabulary Object Detection (OVD) track of the V3Det Challenge 2024.
Abstract（参考訳）: 本稿では,Vast Vocabulary Visual Detection (V3Det) データセットを用いて,教師付きVast Vocabulary Visual Detectionタスクについて検討した。このトラックでは、複雑なカテゴリや検出ボックスの扱いが困難になっている。オリジナルの管制検出器は、この作業には適していない。ネットワーク構造の調整、損失関数の変更、トレーニング戦略の設計など、一連の改善を設計しました。我々のモデルは,V3Det Challenge 2024のVast Vocabulary Object Detection(Supervised)トラックとOpen Vocabulary Object Detection(OVD)トラックの両方において,ベースラインを改良し,Leadboardの優れたランキングを達成した。

関連論文リスト

Fine-Grained Open-Vocabulary Object Detection with Fined-Grained Prompts: Task, Dataset and Benchmark [6.93847426808971]
3F-OVDは、教師付ききめ細かい物体検出をオープン語彙設定に拡張する新しいタスクである。両方の設定で、データセット上で最先端のオブジェクト検出器をベンチマークします。
論文参考訳（メタデータ） (2025-03-19T03:41:46Z)
V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results [142.5704093410454]
V3Det Challenge 2024は、オブジェクト検出研究の境界を推し進めることを目的としている。 Vast Vocabulary Object DetectionとOpen Vocabulary Object Detectionの2つのトラックで構成されている。我々は,広い語彙とオープン語彙のオブジェクト検出において,今後の研究の方向性を刺激することを目指している。
論文参考訳（メタデータ） (2024-06-17T16:58:51Z)
Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T17:32:26Z)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。 DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。 DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:01:44Z)
Box-based Refinement for Weakly Supervised and Unsupervised Localization Tasks [57.70351255180495]
我々は、画像データの代わりにネットワーク出力の上の検出器を訓練し、適切な損失バックプロパゲーションを適用する。本研究は,課題の見地に対するフレーズ接頭辞の大幅な改善を明らかにした。
論文参考訳（メタデータ） (2023-09-07T17:36:02Z)
MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking [27.493264998858955]
開発したリリース・フェッチ管理戦略を用いてラベル割り当てプロセスのバランスをとるMOTRv3を提案する。また, 擬似ラベル蒸留法とトラック群認知法という2つの手法は, 検出・関連性の向上を図っている。
論文参考訳（メタデータ） (2023-05-23T17:40:13Z)
V3Det: Vast Vocabulary Visual Detection Dataset [69.50942928928052]
V3Detは巨大なボキャブラリの視覚検出データセットで、大量の画像に正確に注釈付けされたバウンディングボックスがある。広大な探索空間を提供することで、V3Detは広大かつオープンな語彙オブジェクト検出に関する広範なベンチマークを可能にする。
論文参考訳（メタデータ） (2023-04-07T17:45:35Z)
Bridging Images and Videos: A Simple Learning Framework for Large Vocabulary Video Object Detection [110.08925274049409]
検出と追跡を学習するために、利用可能なすべてのトレーニングデータを最大限に活用する、シンプルだが効果的な学習フレームワークを提案する。様々な大語彙トラッカーを一貫した改良が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T10:33:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。