論文の概要: Cognitive Disentanglement for Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2503.11496v1
- Date: Fri, 14 Mar 2025 15:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:02.035305
- Title: Cognitive Disentanglement for Referring Multi-Object Tracking
- Title(参考訳): マルチオブジェクト追跡の参照のための認知的絡み合い
- Authors: Shaofeng Liang, Runwei Guan, Wangwang Lian, Daizong Liu, Xiaolou Sun, Dongming Wu, Yutao Yue, Weiping Ding, Hui Xiong,
- Abstract要約: Referring Multi-Object Tracking (RMOT)は、言語参照に基づくビデオシーケンス内の特定のオブジェクトのローカライズと追跡を含む。
既存のRMOTアプローチは、言語記述を総体的な埋め込みとして扱うことが多く、言語表現に含まれるリッチな意味情報を視覚的特徴と効果的に統合するのに苦労する。
本稿では,人間の視覚処理システムからRMOTタスクへの"What"と"where"経路を適応させるマルチオブジェクト追跡のための認知的遠方性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.325814292139686
- License:
- Abstract: As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language references. However, existing RMOT approaches often treat language descriptions as holistic embeddings and struggle to effectively integrate the rich semantic information contained in language expressions with visual features. This limitation is especially apparent in complex scenes requiring comprehensive understanding of both static object attributes and spatial motion information. In this paper, we propose a Cognitive Disentanglement for Referring Multi-Object Tracking (CDRMT) framework that addresses these challenges. It adapts the "what" and "where" pathways from human visual processing system to RMOT tasks. Specifically, our framework comprises three collaborative components: (1)The Bidirectional Interactive Fusion module first establishes cross-modal connections while preserving modality-specific characteristics; (2) Building upon this foundation, the Progressive Semantic-Decoupled Query Learning mechanism hierarchically injects complementary information into object queries, progressively refining object understanding from coarse to fine-grained semantic levels; (3) Finally, the Structural Consensus Constraint enforces bidirectional semantic consistency between visual features and language descriptions, ensuring that tracked objects faithfully reflect the referring expression. Extensive experiments on different benchmark datasets demonstrate that CDRMT achieves substantial improvements over state-of-the-art methods, with average gains of 6.0% in HOTA score on Refer-KITTI and 3.2% on Refer-KITTI-V2. Our approach advances the state-of-the-art in RMOT while simultaneously providing new insights into multi-source information fusion.
- Abstract(参考訳): インテリジェントトランスポート認識システムにおけるマルチソース情報融合の重要応用として、言語参照に基づくビデオシーケンス内の特定のオブジェクトのローカライズと追跡が、RMOT(Referring Multi-Object Tracking)によって行われる。
しかし、既存のRMOTアプローチは言語記述を総体的な埋め込みとして扱うことが多く、言語表現に含まれるリッチな意味情報を視覚的特徴と効果的に統合するのに苦労する。
この制限は、静的物体属性と空間運動情報の両方を包括的に理解する必要がある複雑な場面で特に顕著である。
本稿では,これらの課題に対処する認知的多目的追跡(CDRMT)フレームワークを提案する。
人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
具体的には,(1)双方向インタラクティブ・フュージョン・モジュールは,まずモダリティに特有の特徴を保ちながら相互接続を確立する;(2)プログレッシブ・セマンティック・デカップリング・クエリ・ラーニング・メカニズムを基盤として,オブジェクトクエリに相補的情報を階層的に注入し,粗いからきめ細かなセマンティック・レベルへのオブジェクト理解を段階的に洗練する;(3)構造コンセンサス・コンストラクトは視覚的特徴と言語記述の双方向的セマンティック・一貫性を強制し,追跡対象が参照表現を忠実に反映することを保証する。
異なるベンチマークデータセットに対する大規模な実験により、CDRMTは最先端の手法よりも大幅に改善され、平均的なHOTAスコアはRefer-KITTIで6.0%、Refer-KITTI-V2で3.2%向上した。
本手法は,RMOTにおける最先端技術とマルチソース情報融合に関する新たな知見を同時に提供するものである。
関連論文リスト
- Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Bi-directional Contextual Attention for 3D Dense Captioning [38.022425401910894]
3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
論文 参考訳(メタデータ) (2024-08-13T06:25:54Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。