論文の概要: ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2605.02638v1
- Date: Mon, 04 May 2026 14:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.331991
- Title: ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking
- Title(参考訳): ViewSAM: マルチオブジェクト追跡を参照した弱教師付きクロスビューのためのビュー認識型クロスモーダルセマンティック学習
- Authors: Jiawei Ge, Xintian Zhang, Jiuxin Cao, Bo Liu, Fabian Deuser, Chang Liu, Gong Wenkang, Siyou Li, Juexi Shao, Wenqing Wu, Chen Feng, Ioannis Patras,
- Abstract要約: Cross-view Referring Multi-Object Trackingは、複数のカメラビューで自然言語で指定されたオブジェクトを追跡することを目的としている。
既存の手法は、コストのかかるフレームレベルの空間アノテーションとクロスビューアイデンティティ管理に大きく依存している。
本稿では, オブジェクトカテゴリラベルのみを粗粒度監視として用いた, CRMOTの弱制御のための2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.72530626106599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-view Referring Multi-Object Tracking (CRMOT) aims to track multiple objects specified by natural language across multiple camera views, with globally consistent identities. Despite recent progress, existing methods rely heavily on costly frame-level spatial annotations and cross-view identity supervision. To reduce such reliance, we explore CRMOT under weak supervision by leveraging the capabilities of foundation models. However, our empirical study shows that directly applying foundation models such as SAM2 and SAM3, even with task-specific modifications, fails to accurately understand referring expressions and maintain consistent identities across views. Yet, they remain effective at producing reliable object tracklets that can serve as pseudo supervision. We therefore repurpose foundation models as pseudo-label generators and propose a two-stage framework for weakly supervised CRMOT, using only object category labels as coarse-grained supervision. In the first stage, we design an Affinity-guided Cross-view Re-prompting strategy to refine and associate SAM3-generated tracklets across cameras, producing reliable cross-view pseudo labels for subsequent training. In the second stage, we introduce ViewSAM, a CRMOT model built upon SAM2 that explicitly models view-aware cross-modal semantics. By formulating view-induced variations as learnable conditions, ViewSAM bridges the gap between view-variant visual observations and view-invariant textual expressions, enabling robust cross-view referring tracking with only approximately 10% additional parameters. Extensive experiments demonstrate that ViewSAM achieves SOTA performance under weak supervision and remains competitive with fully supervised methods.
- Abstract(参考訳): Cross-view Referring Multi-Object Tracking (CRMOT)は、複数のカメラビューにまたがって自然言語で指定された複数のオブジェクトを、一貫したアイデンティティで追跡することを目的としている。
近年の進歩にもかかわらず、既存の手法はコストの高いフレームレベルの空間アノテーションとクロスビューアイデンティティ管理に大きく依存している。
このような依存を減らすため,基礎モデルの能力を活用することにより,CRMOTを弱監督下で探索する。
しかし,本研究では,SAM2 や SAM3 などの基礎モデルを直接適用しても,参照表現を正確に理解することができず,ビュー間で一貫したアイデンティティを維持できないことを示す。
しかし、それらは疑似監視として機能する信頼性の高いオブジェクトトラックレットを作成するのに有効である。
そこで我々は, ファウンデーションモデルを擬似ラベル生成器として再利用し, オブジェクトカテゴリラベルのみを粗いきめ細かな監視として使用して, CRMOTを弱く管理する2段階フレームワークを提案する。
最初の段階では、カメラ間でSAM3生成したトラックレットを洗練・関連づけるアフィニティ誘導型クロスビューリプロンプト戦略を設計し、その後のトレーニングのために信頼性の高いクロスビュー擬似ラベルを生成する。
第二段階では、ビューアウェアなクロスモーダルセマンティクスを明示的にモデル化する、SAM2上に構築されたCRMOTモデルであるViewSAMを紹介します。
ViewSAMは、ビュー誘導のバリエーションを学習可能な条件として定式化することにより、ビュー不変の視覚観察とビュー不変のテキスト表現のギャップを埋め、約10%の追加パラメータで、堅牢なクロスビュー参照トラッキングを可能にする。
大規模な実験により、ViewSAMは弱い監督下でSOTA性能を達成し、完全に監督された手法と競合し続けることが示されている。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - V$^{2}$-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence [90.92892171307055]
V2-SAMは、統合されたクロスビューオブジェクト対応フレームワークである。
SAM2は2つの相補的なプロンプトジェネレータを通して、シングルビューセグメンテーションからクロスビュー対応に適応する。
V2-SAMは、Ego-Exo4D(ego-exoオブジェクト対応)、DAVIS-2017(ビデオオブジェクト追跡)、HANDAL-X(robotic-ready cross-view対応)の新たな最先端性能を実現する
論文 参考訳(メタデータ) (2025-11-25T22:06:30Z) - Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。
このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。
本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文 参考訳(メタデータ) (2025-06-10T16:25:15Z) - ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。