Fugu-MT 論文翻訳(概要): ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking

論文の概要: ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking

arxiv url: http://arxiv.org/abs/2605.02638v1
Date: Mon, 04 May 2026 14:23:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:50.331991
Title: ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking
Title（参考訳）: ViewSAM: マルチオブジェクト追跡を参照した弱教師付きクロスビューのためのビュー認識型クロスモーダルセマンティック学習
Authors: Jiawei Ge, Xintian Zhang, Jiuxin Cao, Bo Liu, Fabian Deuser, Chang Liu, Gong Wenkang, Siyou Li, Juexi Shao, Wenqing Wu, Chen Feng, Ioannis Patras,
Abstract要約: Cross-view Referring Multi-Object Trackingは、複数のカメラビューで自然言語で指定されたオブジェクトを追跡することを目的としている。既存の手法は、コストのかかるフレームレベルの空間アノテーションとクロスビューアイデンティティ管理に大きく依存している。本稿では, オブジェクトカテゴリラベルのみを粗粒度監視として用いた, CRMOTの弱制御のための2段階フレームワークを提案する。
参考スコア（独自算出の注目度）: 31.72530626106599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-view Referring Multi-Object Tracking (CRMOT) aims to track multiple objects specified by natural language across multiple camera views, with globally consistent identities. Despite recent progress, existing methods rely heavily on costly frame-level spatial annotations and cross-view identity supervision. To reduce such reliance, we explore CRMOT under weak supervision by leveraging the capabilities of foundation models. However, our empirical study shows that directly applying foundation models such as SAM2 and SAM3, even with task-specific modifications, fails to accurately understand referring expressions and maintain consistent identities across views. Yet, they remain effective at producing reliable object tracklets that can serve as pseudo supervision. We therefore repurpose foundation models as pseudo-label generators and propose a two-stage framework for weakly supervised CRMOT, using only object category labels as coarse-grained supervision. In the first stage, we design an Affinity-guided Cross-view Re-prompting strategy to refine and associate SAM3-generated tracklets across cameras, producing reliable cross-view pseudo labels for subsequent training. In the second stage, we introduce ViewSAM, a CRMOT model built upon SAM2 that explicitly models view-aware cross-modal semantics. By formulating view-induced variations as learnable conditions, ViewSAM bridges the gap between view-variant visual observations and view-invariant textual expressions, enabling robust cross-view referring tracking with only approximately 10% additional parameters. Extensive experiments demonstrate that ViewSAM achieves SOTA performance under weak supervision and remains competitive with fully supervised methods.
Abstract（参考訳）: Cross-view Referring Multi-Object Tracking (CRMOT)は、複数のカメラビューにまたがって自然言語で指定された複数のオブジェクトを、一貫したアイデンティティで追跡することを目的としている。近年の進歩にもかかわらず、既存の手法はコストの高いフレームレベルの空間アノテーションとクロスビューアイデンティティ管理に大きく依存している。このような依存を減らすため,基礎モデルの能力を活用することにより,CRMOTを弱監督下で探索する。しかし,本研究では,SAM2 や SAM3 などの基礎モデルを直接適用しても,参照表現を正確に理解することができず,ビュー間で一貫したアイデンティティを維持できないことを示す。しかし、それらは疑似監視として機能する信頼性の高いオブジェクトトラックレットを作成するのに有効である。そこで我々は, ファウンデーションモデルを擬似ラベル生成器として再利用し, オブジェクトカテゴリラベルのみを粗いきめ細かな監視として使用して, CRMOTを弱く管理する2段階フレームワークを提案する。最初の段階では、カメラ間でSAM3生成したトラックレットを洗練・関連づけるアフィニティ誘導型クロスビューリプロンプト戦略を設計し、その後のトレーニングのために信頼性の高いクロスビュー擬似ラベルを生成する。第二段階では、ビューアウェアなクロスモーダルセマンティクスを明示的にモデル化する、SAM2上に構築されたCRMOTモデルであるViewSAMを紹介します。 ViewSAMは、ビュー誘導のバリエーションを学習可能な条件として定式化することにより、ビュー不変の視覚観察とビュー不変のテキスト表現のギャップを埋め、約10%の追加パラメータで、堅牢なクロスビュー参照トラッキングを可能にする。大規模な実験により、ViewSAMは弱い監督下でSOTA性能を達成し、完全に監督された手法と競合し続けることが示されている。

論文の概要: ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking

関連論文リスト