論文の概要: SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking
- arxiv url: http://arxiv.org/abs/2409.11235v1
- Date: Tue, 17 Sep 2024 14:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:25:29.026185
- Title: SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking
- Title(参考訳): SLAck: セマンティック、ロケーション、外観はオープン語彙追跡を意識する
- Authors: Siyuan Li, Lei Ke, Yung-Hsu Yang, Luigi Piccinelli, Mattia Segù, Martin Danelljan, Luc Van Gool,
- Abstract要約: Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 89.43370214059955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary Multiple Object Tracking (MOT) aims to generalize trackers to novel categories not in the training set. Currently, the best-performing methods are mainly based on pure appearance matching. Due to the complexity of motion patterns in the large-vocabulary scenarios and unstable classification of the novel objects, the motion and semantics cues are either ignored or applied based on heuristics in the final matching steps by existing methods. In this paper, we present a unified framework SLAck that jointly considers semantics, location, and appearance priors in the early steps of association and learns how to integrate all valuable information through a lightweight spatial and temporal object graph. Our method eliminates complex post-processing heuristics for fusing different cues and boosts the association performance significantly for large-scale open-vocabulary tracking. Without bells and whistles, we outperform previous state-of-the-art methods for novel classes tracking on the open-vocabulary MOT and TAO TETA benchmarks. Our code is available at \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck}.
- Abstract(参考訳): Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
現在、最高のパフォーマンスの手法は主に純粋な外観マッチングに基づいている。
大語彙シナリオにおける動きパターンの複雑さと新しい対象の不安定な分類のため、動作と意味論の手がかりは無視されるか、既存の手法による最終的なマッチングステップにおけるヒューリスティックスに基づいて適用される。
本稿では,関連の初期段階における意味論,位置,外観を協調的に検討し,軽量な空間的・時間的オブジェクトグラフを通じて,すべての貴重な情報を統合する方法を学ぶ統合フレームワークSLAckを提案する。
提案手法は,異なるキューを融合するための複雑な後処理ヒューリスティックを排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
ベルとホイッスルがなければ、オープン語彙MOTとTAO TETAベンチマークによる新しいクラス追跡の最先端手法よりも優れている。
我々のコードは \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck} で入手できる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Semantic Enhanced Few-shot Object Detection [37.715912401900745]
本稿では, セマンティックな埋め込みを利用してより優れた検出を行う, 微調整に基づくFSODフレームワークを提案する。
提案手法は,各新規クラスが類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築することを可能にする。
論文 参考訳(メタデータ) (2024-06-19T12:40:55Z) - Learning to Detour: Shortcut Mitigating Augmentation for Weakly Supervised Semantic Segmentation [7.5856806269316825]
弱いラベルを用いた弱教師付きセマンティックセグメンテーション(WSSS)は,画素レベルのラベルを取得するためのアノテーションコストを軽減するために活発に研究されている。
本稿では,WSSS のためのショートカット緩和機能 (SMA) を提案する。これは,トレーニングデータに見られないオブジェクトと背景の組み合わせの合成表現を生成し,ショートカット機能の使用を減らす。
論文 参考訳(メタデータ) (2024-05-28T13:07:35Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。