論文の概要: OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding
- arxiv url: http://arxiv.org/abs/2511.17053v1
- Date: Fri, 21 Nov 2025 08:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.94634
- Title: OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding
- Title(参考訳): OmniPT: 歩行者追跡と理解のための大規模視覚言語モデルの可能性
- Authors: Teng Fu, Mengyang Zhao, Ke Niu, Kaixin Peng, Bin Li,
- Abstract要約: OmniPTという新しい統合された歩行者追跡フレームワークを提案する。これは参照に基づいて追跡し、追跡し、対話的に追跡対象のセマンティックな理解を生成する。
追従ベンチマーク実験を行い,提案手法が従来の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 7.191306516610944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LVLMs have been shown to perform excellently in image-level tasks such as VQA and caption. However, in many instance-level tasks, such as visual grounding and object detection, LVLMs still show performance gaps compared to previous expert models. Meanwhile, although pedestrian tracking is a classical task, there have been a number of new topics in combining object tracking and natural language, such as Referring MOT, Cross-view Referring MOT, and Semantic MOT. These tasks emphasize that models should understand the tracked object at an advanced semantic level, which is exactly where LVLMs excel. In this paper, we propose a new unified Pedestrian Tracking framework, namely OmniPT, which can track, track based on reference and generate semantic understanding of tracked objects interactively. We address two issues: how to model the tracking task into a task that foundation models can perform, and how to make the model output formatted answers. To this end, we implement a training phase consisting of RL-Mid Training-SFT-RL. Based on the pre-trained weights of the LVLM, we first perform a simple RL phase to enable the model to output fixed and supervisable bounding box format. Subsequently, we conduct a mid-training phase using a large number of pedestrian-related datasets. Finally, we perform supervised fine-tuning on several pedestrian tracking datasets, and then carry out another RL phase to improve the model's tracking performance and enhance its ability to follow instructions. We conduct experiments on tracking benchmarks and the experimental results demonstrate that the proposed method can perform better than the previous methods.
- Abstract(参考訳): LVLMは、VQAやキャプションといった画像レベルのタスクにおいて優れたパフォーマンスを示すことが示されている。
しかし、視覚的なグラウンドニングやオブジェクト検出といった多くのインスタンスレベルのタスクでは、LVLMは以前のエキスパートモデルと比べてパフォーマンスのギャップがまだ残っている。
一方、歩行者追跡は古典的な課題であるが、オブジェクト追跡と自然言語の組み合わせには、Referring MOT、Cross-view Referring MOT、Semantic MOTなど、多くの新しいトピックがある。
これらのタスクは、追跡されたオブジェクトを高度なセマンティックレベルで理解する必要があることを強調している。
本稿では,参照に基づいて追跡・追跡し,対話的に追跡対象のセマンティック理解を生成する,新たな統合された歩行者追跡フレームワークOmniPTを提案する。
追跡タスクを基礎モデルが実行可能なタスクにモデル化する方法と、モデル出力の形式化された回答の方法の2つの問題に対処する。
この目的のために、RL-Mid Training-SFT-RLからなるトレーニングフェーズを実装した。
LVLMの事前学習重みに基づいて、まず簡単なRLフェーズを実行し、モデルが固定および監視可能なバウンディングボックスフォーマットを出力できるようにする。
その後、多数の歩行者関連データセットを用いて、中間訓練フェーズを実施。
最後に、複数の歩行者追跡データセットの教師付き微調整を行い、次に別のRLフェーズを実行して、モデル追跡性能を改善し、指示に従う能力を高める。
追従ベンチマーク実験を行い,提案手法が従来の手法より優れていることを示す。
関連論文リスト
- R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning [5.59181512260003]
単一のオブジェクト追跡は、その後のビデオフレームにおけるターゲットのスケールを連続的にローカライズし、推定することを目的としている。
Qwen2.5-VLはイメージペア間のテンプレートマッチングに苦労している。
グループ相対政策最適化(GRPO)強化学習法を用いてQwen2.5-VLを微調整した。
結果として得られたR1-Trackは、GOT-10kベンチマークで顕著な性能を達成した。
論文 参考訳(メタデータ) (2025-06-27T07:41:15Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。