論文の概要: Using Cross-Domain Detection Loss to Infer Multi-Scale Information for Improved Tiny Head Tracking
- arxiv url: http://arxiv.org/abs/2505.22677v1
- Date: Wed, 14 May 2025 02:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.4753
- Title: Using Cross-Domain Detection Loss to Infer Multi-Scale Information for Improved Tiny Head Tracking
- Title(参考訳): マルチスケール情報推定のためのクロスドメイン検出損失を用いたTiny Head Trackingの改良
- Authors: Jisu Kim, Alex Mattingly, Eung-Joo Lee, Benjamin S. Riggan,
- Abstract要約: 性能と効率のバランスを最適化し,微少な頭部検出と追跡を強化する枠組みを提案する。
本フレームワークは,(1)クロスドメイン検出損失,(2)マルチスケールモジュール,(3)小さな受容場検出機構を統合する。
これらのイノベーションは、大きな検出器と小さな検出器の間のギャップを埋め、トレーニング中に複数のスケールで高周波の詳細をキャプチャし、小さな受容野を持つフィルターを使って小さな頭部を検出することによって検出を強化する。
- 参考スコア(独自算出の注目度): 2.960887693377022
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Head detection and tracking are essential for downstream tasks, but current methods often require large computational budgets, which increase latencies and ties up resources (e.g., processors, memory, and bandwidth). To address this, we propose a framework to enhance tiny head detection and tracking by optimizing the balance between performance and efficiency. Our framework integrates (1) a cross-domain detection loss, (2) a multi-scale module, and (3) a small receptive field detection mechanism. These innovations enhance detection by bridging the gap between large and small detectors, capturing high-frequency details at multiple scales during training, and using filters with small receptive fields to detect tiny heads. Evaluations on the CroHD and CrowdHuman datasets show improved Multiple Object Tracking Accuracy (MOTA) and mean Average Precision (mAP), demonstrating the effectiveness of our approach in crowded scenes.
- Abstract(参考訳): ヘッド検出とトラッキングは下流のタスクには不可欠であるが、現在の手法では遅延を増大させリソース(プロセッサ、メモリ、帯域幅など)を結び付ける大きな計算予算を必要とすることが多い。
そこで本研究では,性能と効率のバランスを最適化することで,頭部検出と追跡の小型化を実現するフレームワークを提案する。
本フレームワークは,(1)クロスドメイン検出損失,(2)マルチスケールモジュール,(3)小さな受容場検出機構を統合する。
これらのイノベーションは、大きな検出器と小さな検出器の間のギャップを埋め、トレーニング中に複数のスケールで高周波の詳細をキャプチャし、小さな受容野を持つフィルターを使って小さな頭部を検出することによって検出を強化する。
CroHD と CrowdHuman データセットの評価では,MOTA (Multiple Object Tracking Accuracy) と平均平均精度 (Average Precision) が改善された。
関連論文リスト
- Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Tucker Bilinear Attention Network for Multi-scale Remote Sensing Object
Detection [10.060030309684953]
リモートセンシング対象の大規模変動は、VHRリモートセンシング対象検出における大きな課題の1つである。
本稿では2つの新しいモジュール, Guided Attention と Tucker Bilinear Attention を提案する。
2つのモジュールに基づいて、我々は新しいマルチスケールリモートセンシングオブジェクト検出フレームワークを構築した。
論文 参考訳(メタデータ) (2023-03-09T15:20:03Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Rethinking the Detection Head Configuration for Traffic Object Detection [11.526701794026641]
本稿では,検出ヘッドとオブジェクト分布のマッチングに基づいて,軽量なトラフィックオブジェクト検出ネットワークを提案する。
提案したモデルでは,BDD100Kデータセットと提案したETFOD-v2データセットの他のモデルよりも,より競争力のあるパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-08T02:23:57Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。