論文の概要: Multi-Object Tracking Retrieval with LLaVA-Video: A Training-Free Solution to MOT25-StAG Challenge
- arxiv url: http://arxiv.org/abs/2511.03332v1
- Date: Wed, 05 Nov 2025 10:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.401417
- Title: Multi-Object Tracking Retrieval with LLaVA-Video: A Training-Free Solution to MOT25-StAG Challenge
- Title(参考訳): LLaVA-Videoによるマルチオブジェクト追跡検索:MOT25-StAGチャレンジのトレーニング不要ソリューション
- Authors: Yi Yang, Yiming Xu, Timo Kaiser, Hao Cheng, Bodo Rosenhahn, Michael Ying Yang,
- Abstract要約: この課題の目的は、特定の言語クエリと自由形式の言語クエリにマッチする複数のオブジェクトを正確にローカライズし、追跡することである。
課題をビデオ検索問題としてモデル化し、2段階のゼロショット手法を提案する。
MOT25-StAG テストセットでは,m-HIoU と HOTA のスコアが 20.68 と 10.73 となり,挑戦で2位となった。
- 参考スコア(独自算出の注目度): 42.013930541762484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our solution to the MOT25-Spatiotemporal Action Grounding (MOT25-StAG) Challenge. The aim of this challenge is to accurately localize and track multiple objects that match specific and free-form language queries, using video data of complex real-world scenes as input. We model the underlying task as a video retrieval problem and present a two-stage, zero-shot approach, combining the advantages of the SOTA tracking model FastTracker and Multi-modal Large Language Model LLaVA-Video. On the MOT25-StAG test set, our method achieves m-HIoU and HOTA scores of 20.68 and 10.73 respectively, which won second place in the challenge.
- Abstract(参考訳): 本稿では,MOT25-Spatiotemporal Action Grounding (MOT25-StAG) Challengeについて述べる。
この課題の目的は、複雑な現実世界のシーンのビデオデータを入力として、特定の言語クエリとフリーフォームの言語クエリにマッチする複数のオブジェクトを正確にローカライズし、追跡することである。
我々は,その基礎となるタスクをビデオ検索問題としてモデル化し,SOTA追跡モデルFastTrackerとマルチモーダル大言語モデルLLaVA-Videoの利点を組み合わせた2段階ゼロショット方式を提案する。
MOT25-StAG テストセットでは,m-HIoU と HOTA のスコアが 20.68 と 10.73 となり,挑戦で2位となった。
関連論文リスト
- Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark [64.16672247204997]
我々は、IEEE/CVF European Conference on Computer Vision (ECCV) 2024と共に半日間のワークショップとして、第2知覚テストチャレンジを組織した。
目標は、最先端のビデオモデルをベンチマークし、昨年からPerception Testベンチマークを使用して進捗を計測することだった。
今年は7つのトラックがあり、低レベルかつ高レベルなタスクをカバーし、ビデオ、オーディオ、テキストのモダリティをカバーした言語と非言語インターフェースを備えていた。
追加のトラックは1時間にわたるビデオ理解をカバーし、新しいビデオQAベンチマーク1h-walk VQAを導入した。
論文 参考訳(メタデータ) (2024-11-29T18:57:25Z) - PVUW 2024 Challenge on Complex Video Understanding: Methods and Results [199.5593316907284]
我々は、MOSEデータセットに基づく複合ビデオオブジェクトトラックと、MeViSデータセットに基づくモーション表現ガイドビデオトラックの2つの新しいトラックを追加した。
2つの新しいトラックでは、挑戦的な要素を特徴とする追加のビデオとアノテーションを提供しています。
これらの新しいビデオ、文、アノテーションにより、より包括的で堅牢なビデオシーン理解の開発を促進することができる。
論文 参考訳(メタデータ) (2024-06-24T17:38:58Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - SoccerNet 2023 Tracking Challenge -- 3rd place MOT4MOT Team Technical
Report [0.552480439325792]
SoccerNet 2023の追跡課題は、サッカー選手とボールの検出と追跡を必要とする。
我々は、現在最先端のオンラインマルチオブジェクトトラッカーと、現代のオブジェクト検出装置をプレイヤー追跡に使用しています。
提案手法は, HOTAスコア66.27で, SoccerNet 2023の3位を獲得した。
論文 参考訳(メタデータ) (2023-08-31T11:51:16Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Multiple Object Tracking Challenge Technical Report for Team MT_IoT [41.88133094982688]
我々はMOTタスクを、人間の検出と軌道マッチングを含む2段階のタスクとして扱う。
具体的には、改良された人体検知器を設計し、運動軌跡の整合性を保証するため、ほとんどの検出を関連づけた。
そこで本手法では,DanceTrackチャレンジデータセット上で66.672 HOTAと93.971 MOTAを達成した。
論文 参考訳(メタデータ) (2022-12-07T12:00:51Z) - AIM 2020 Challenge on Video Temporal Super-Resolution [118.46127362093135]
Video Temporal Super-Resolution (VTSR) の第2回AIMチャレンジ
本稿では,ビデオ・テンポラル・スーパー・リゾリューション(VTSR)における第2回AIM課題について報告する。
論文 参考訳(メタデータ) (2020-09-28T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。