論文の概要: Multi-Object Tracking by Hierarchical Visual Representations
- arxiv url: http://arxiv.org/abs/2402.15895v1
- Date: Sat, 24 Feb 2024 20:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:32:36.989745
- Title: Multi-Object Tracking by Hierarchical Visual Representations
- Title(参考訳): 階層的視覚表現による多物体追跡
- Authors: Jinkun Cao, Jiangmiao Pang, Kris Kitani
- Abstract要約: マルチオブジェクト追跡のための新しい視覚的階層表現パラダイムを提案する。
対象の合成視覚領域に参画し、背景の文脈情報と対比することにより、対象間の識別がより効果的である。
- 参考スコア(独自算出の注目度): 40.521291165765696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new visual hierarchical representation paradigm for multi-object
tracking. It is more effective to discriminate between objects by attending to
objects' compositional visual regions and contrasting with the background
contextual information instead of sticking to only the semantic visual cue such
as bounding boxes. This compositional-semantic-contextual hierarchy is flexible
to be integrated in different appearance-based multi-object tracking methods.
We also propose an attention-based visual feature module to fuse the
hierarchical visual representations. The proposed method achieves
state-of-the-art accuracy and time efficiency among query-based methods on
multiple multi-object tracking benchmarks.
- Abstract(参考訳): マルチオブジェクト追跡のための新しい視覚的階層表現パラダイムを提案する。
オブジェクトの合成視覚領域に参画し、境界ボックスのような意味的な視覚的キューのみに固執するのではなく、背景の文脈情報と対比することにより、オブジェクト間の識別がより効果的である。
この構成-意味-文脈階層は、異なる外観ベースの多目的追跡法に統合できる柔軟性がある。
また,階層的な視覚表現を融合させる注目型視覚特徴モジュールを提案する。
提案手法は,複数のマルチオブジェクト追跡ベンチマークにおいて,問合せに基づく手法の精度と時間効率が向上する。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - On the robustness of self-supervised representations for multi-view
object classification [0.0]
インスタンス識別の目的に基づく自己教師型表現は、オブジェクトの視点や視点の変化に対してより堅牢なオブジェクトの表現に繋がることを示す。
自己監督型表現は、オブジェクトの視点に対してより堅牢であり、新しい視点からオブジェクトの認識を促進するオブジェクトに関するより関連する情報をエンコードしているように見える。
論文 参考訳(メタデータ) (2022-07-27T17:24:55Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。