論文の概要: VSD-MOT: End-to-End Multi-Object Tracking in Low-Quality Video Scenes Guided by Visual Semantic Distillation
- arxiv url: http://arxiv.org/abs/2603.20731v1
- Date: Sat, 21 Mar 2026 09:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.061618
- Title: VSD-MOT: End-to-End Multi-Object Tracking in Low-Quality Video Scenes Guided by Visual Semantic Distillation
- Title(参考訳): VSD-MOT:視覚的セマンティック蒸留による低品質映像シーンにおけるエンド・ツー・エンド多目的追跡
- Authors: Jun Du,
- Abstract要約: 既存のマルチオブジェクト追跡アルゴリズムは、通常、低品質のビデオの問題を適切に解決できない。
視覚的意味蒸留(VSD-MOT)により誘導される多目的追跡フレームワークを提案する。
低品質ビデオにおけるフレーム品質の動的変動に対処するために,動的セマンティック・ウェイト・レギュレーション(DSWR)モジュールを提案する。
- 参考スコア(独自算出の注目度): 12.844814515209654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-object tracking algorithms typically fail to adequately address the issues in low-quality videos, resulting in a significant decline in tracking performance when image quality deteriorates in real-world scenarios. This performance degradation is primarily due to the algorithms' inability to effectively tackle the problems caused by information loss in low-quality images. To address the challenges of low-quality video scenarios, inspired by vision-language models, we propose a multi-object tracking framework guided by visual semantic distillation (VSD-MOT). Specifically, we introduce the CLIP Image Encoder to extract global visual semantic information from images to compensate for the loss of information in low-quality images. However, direct integration can substantially impact the efficiency of the multi-object tracking algorithm. Therefore, this paper proposes to extract visual semantic information from images through knowledge distillation. This method adopts a teacher-student learning framework, with the CLIP Image Encoder serving as the teacher model. To enable the student model to acquire the capability of extracting visual semantic information suitable for multi-object tracking tasks from the teacher model, we have designed the Dual-Constraint Semantic Distillation method (DCSD). Furthermore, to address the dynamic variation of frame quality in low-quality videos, we propose the Dynamic Semantic Weight Regulation (DSWR) module, which adaptively allocates fusion weights based on real-time frame quality assessment. Extensive experiments demonstrate the effectiveness and superiority of the proposed method in low-quality video scenarios in the real world. Meanwhile, our method can maintain good performance in conventional scenarios.
- Abstract(参考訳): 既存のマルチオブジェクト追跡アルゴリズムは、通常、低品質のビデオの問題を適切に解決することができず、現実のシナリオで画質が劣化すると、追跡性能が著しく低下する。
この性能劣化は主に、低画質画像における情報損失に起因する問題にアルゴリズムが効果的に対処できないためである。
視覚言語モデルにインスパイアされた低品質映像シナリオの課題に対処するため,視覚的意味蒸留(VSD-MOT)によって誘導される多目的追跡フレームワークを提案する。
具体的には、CLIP画像エンコーダを導入し、画像からグローバルな視覚的意味情報を抽出し、低品質画像における情報の損失を補う。
しかし、直接統合は多目的追跡アルゴリズムの効率に大きな影響を及ぼす可能性がある。
そこで本研究では,知識蒸留を通じて画像から視覚意味情報を抽出することを提案する。
この方法は、CLIPイメージエンコーダが教師モデルとして機能する教師学習フレームワークを採用する。
教師モデルから多目的追跡タスクに適した視覚的意味情報を抽出する能力を得るために,教師モデルを用いてDual-Constraint Semantic Distillation法(DCSD)を設計した。
さらに,低品質ビデオにおけるフレーム品質の動的変動に対処するため,リアルタイムなフレーム品質評価に基づいて,融合重みを適応的に割り当てる動的セマンティック・ウェイト・レギュレーション(DSWR)モジュールを提案する。
実世界の低品質映像シナリオにおいて,提案手法の有効性と優位性を示す実験を行った。
一方,本手法は従来のシナリオでは良好な性能を維持することができる。
関連論文リスト
- Next Best View Selections for Semantic and Dynamic 3D Gaussian Splatting [33.577982244470796]
我々は、ビュー選択問題をアクティブな学習問題として定式化する。
そこで本研究では,候補視点の有意性を定量化する能動的学習アルゴリズムを提案する。
本手法は,大規模静的画像と動的ビデオデータセットを用いて評価する。
論文 参考訳(メタデータ) (2025-12-28T04:19:25Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - VSE-MOT: Multi-Object Tracking in Low-Quality Video Scenes Guided by Visual Semantic Enhancement [31.583723441090303]
本稿では,VSE-MOT(Visual Semantic Enhancement-Guided Multi-Object Tracking framework)を提案する。
まず視覚言語モデルを利用して画像からグローバルな視覚意味情報を抽出する三分岐アーキテクチャを設計する。
視覚的意味情報の利用をさらに促進するために,MOT-Adapter (Multi-Object Tracking Adapter) とVSFM (Visual Semantic Fusion Module) を導入する。
論文 参考訳(メタデータ) (2025-09-17T15:04:45Z) - A Multi-Scale Spatial Attention-Based Zero-Shot Learning Framework for Low-Light Image Enhancement [3.55026004901472]
LucentVisionNetは、低照度画像強調のための新しいゼロショット学習フレームワークである。
我々のフレームワークは、高い視覚的品質、構造的整合性、計算効率を実現する。
モバイル写真、監視、自律ナビゲーションといった現実世界のアプリケーションにデプロイするのに適しています。
論文 参考訳(メタデータ) (2025-06-23T06:11:55Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。