Fugu-MT 論文翻訳(概要): Multi-Object Tracking by Hierarchical Visual Representations

論文の概要: Multi-Object Tracking by Hierarchical Visual Representations

arxiv url: http://arxiv.org/abs/2402.15895v1
Date: Sat, 24 Feb 2024 20:10:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 16:32:36.989745
Title: Multi-Object Tracking by Hierarchical Visual Representations
Title（参考訳）: 階層的視覚表現による多物体追跡
Authors: Jinkun Cao, Jiangmiao Pang, Kris Kitani
Abstract要約: マルチオブジェクト追跡のための新しい視覚的階層表現パラダイムを提案する。対象の合成視覚領域に参画し、背景の文脈情報と対比することにより、対象間の識別がより効果的である。
参考スコア（独自算出の注目度）: 40.521291165765696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new visual hierarchical representation paradigm for multi-object tracking. It is more effective to discriminate between objects by attending to objects' compositional visual regions and contrasting with the background contextual information instead of sticking to only the semantic visual cue such as bounding boxes. This compositional-semantic-contextual hierarchy is flexible to be integrated in different appearance-based multi-object tracking methods. We also propose an attention-based visual feature module to fuse the hierarchical visual representations. The proposed method achieves state-of-the-art accuracy and time efficiency among query-based methods on multiple multi-object tracking benchmarks.
Abstract（参考訳）: マルチオブジェクト追跡のための新しい視覚的階層表現パラダイムを提案する。オブジェクトの合成視覚領域に参画し、境界ボックスのような意味的な視覚的キューのみに固執するのではなく、背景の文脈情報と対比することにより、オブジェクト間の識別がより効果的である。この構成-意味-文脈階層は、異なる外観ベースの多目的追跡法に統合できる柔軟性がある。また,階層的な視覚表現を融合させる注目型視覚特徴モジュールを提案する。提案手法は,複数のマルチオブジェクト追跡ベンチマークにおいて,問合せに基づく手法の精度と時間効率が向上する。

関連論文リスト

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文参考訳（メタデータ） (2024-11-26T14:58:06Z)
VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。 OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。 VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文参考訳（メタデータ） (2024-10-11T05:01:49Z)
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文参考訳（メタデータ） (2024-08-29T07:32:01Z)
Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文参考訳（メタデータ） (2024-06-07T11:18:40Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。 4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文参考訳（メタデータ） (2020-11-04T23:07:07Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)
Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文参考訳（メタデータ） (2020-07-14T08:00:26Z)
MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。 MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文参考訳（メタデータ） (2020-04-17T11:45:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。