論文の概要: Contrastive Learning through Auxiliary Branch for Video Object Detection
- arxiv url: http://arxiv.org/abs/2508.20551v1
- Date: Thu, 28 Aug 2025 08:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.243847
- Title: Contrastive Learning through Auxiliary Branch for Video Object Detection
- Title(参考訳): ビデオオブジェクト検出のための補助分岐によるコントラスト学習
- Authors: Lucas Rakotoarivony,
- Abstract要約: 本稿では,画像劣化に対するロバスト性を向上させるために,予備分枝(CLAB)法によるコントラスト学習を導入する。
CLAB は ImageNet VID データセット上で ResNet-101 と ResNeXt-101 で 84.0% mAP と 85.2% mAP に到達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection is a challenging task because videos often suffer from image deterioration such as motion blur, occlusion, and deformable shapes, making it significantly more difficult than detecting objects in still images. Prior approaches have improved video object detection performance by employing feature aggregation and complex post-processing techniques, though at the cost of increased computational demands. To improve robustness to image degradation without additional computational load during inference, we introduce a straightforward yet effective Contrastive Learning through Auxiliary Branch (CLAB) method. First, we implement a constrastive auxiliary branch using a contrastive loss to enhance the feature representation capability of the video object detector's backbone. Next, we propose a dynamic loss weighting strategy that emphasizes auxiliary feature learning early in training while gradually prioritizing the detection task as training converges. We validate our approach through comprehensive experiments and ablation studies, demonstrating consistent performance gains. Without bells and whistles, CLAB reaches a performance of 84.0% mAP and 85.2% mAP with ResNet-101 and ResNeXt-101, respectively, on the ImageNet VID dataset, thus achieving state-of-the-art performance for CNN-based models without requiring additional post-processing methods.
- Abstract(参考訳): ビデオオブジェクト検出は、動画が動きのぼやけ、閉塞、変形可能な形状などの画像劣化に悩まされることが多いため、静止画像中の物体を検出することよりもはるかに困難である。
従来の手法では、計算要求の増大を犠牲にしながら、特徴集約と複雑な後処理技術を用いることで、ビデオオブジェクトの検出性能が向上していた。
推論中に余分な計算負荷を伴わずに画像劣化に対するロバスト性を改善するために,補助分岐法(CLAB)による直接的かつ効果的なコントラスト学習を導入する。
まず、コントラスト損失を用いたコンストラッシブ補助分岐を実装し、ビデオオブジェクト検出器のバックボーンの特徴表現能力を向上する。
次に,訓練の初期段階において補助的特徴学習を重視しながら,学習が収束するにつれて検出タスクを徐々に優先順位付けする動的損失重み付け戦略を提案する。
我々は、総合的な実験とアブレーション研究を通じてアプローチを検証し、一貫した性能向上を実証した。
ベルとホイッスルがなければ、CLABはImageNet VIDデータセット上でResNet-101とResNeXt-101で84.0% mAPと85.2% mAPのパフォーマンスに達し、追加の事後処理を必要とせずにCNNベースのモデルで最先端のパフォーマンスを達成する。
関連論文リスト
- Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval [46.944526377710346]
トレーニング不要なロングテールオブジェクト検出フレームワークであるSearchDetを紹介する。
提案手法は単純かつ無訓練であるが,ODinWでは48.7% mAP,LVISでは59.1% mAPの改善が達成されている。
論文 参考訳(メタデータ) (2024-09-26T05:14:19Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation
with Minimal Annotation Costs [2.7920304852537536]
ビデオベースのトレーニングを必要とせずに最先端のパフォーマンスを実現するための,Unified Perceptionという新しいアプローチを提案する。
本手法では,画像ベースネットワークで計算されたオブジェクトの埋め込みを (再) 利用する,単純な2段階のカスケード追跡アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-03T15:00:12Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Adaptive Remote Sensing Image Attribute Learning for Active Object
Detection [43.029857143916345]
本稿では,適応的な明るさ調整とスケール調整を例に,深層強化学習に基づくアクティブ物体検出手法を提案する。
適応画像属性学習の目標は、検出性能を最大化することです。
論文 参考訳(メタデータ) (2021-01-16T11:37:50Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Robust and efficient post-processing for video object detection [9.669942356088377]
この研究は、従来の後処理メソッドの制限を克服する、新しい後処理パイプラインを導入している。
本手法は,特に高速移動物体に関する最先端の映像検出器の結果を改善する。
そして、YOLOのような効率的な静止画像検出器に適用することで、より計算集約的な検出器に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2020-09-23T10:47:24Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。