論文の概要: Tracking and Segmenting Anything in Any Modality
- arxiv url: http://arxiv.org/abs/2511.19475v1
- Date: Sat, 22 Nov 2025 09:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.019627
- Title: Tracking and Segmenting Anything in Any Modality
- Title(参考訳): あらゆるモダリティにおけるトラッキングとセグメンテーション
- Authors: Tianlu Zhang, Qiang Zhang, Guiguang Ding, Jungong Han,
- Abstract要約: そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
- 参考スコア(独自算出の注目度): 75.32774085793498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking and segmentation play essential roles in video understanding, providing basic positional information and temporal association of objects within video sequences. Despite their shared objective, existing approaches often tackle these tasks using specialized architectures or modality-specific parameters, limiting their generalization and scalability. Recent efforts have attempted to unify multiple tracking and segmentation subtasks from the perspectives of any modality input or multi-task inference. However, these approaches tend to overlook two critical challenges: the distributional gap across different modalities and the feature representation gap across tasks. These issues hinder effective cross-task and cross-modal knowledge sharing, ultimately constraining the development of a true generalist model. To address these limitations, we propose a universal tracking and segmentation framework named SATA, which unifies a broad spectrum of tracking and segmentation subtasks with any modality input. Specifically, a Decoupled Mixture-of-Expert (DeMoE) mechanism is presented to decouple the unified representation learning task into the modeling process of cross-modal shared knowledge and specific information, thus enabling the model to maintain flexibility while enhancing generalization. Additionally, we introduce a Task-aware Multi-object Tracking (TaMOT) pipeline to unify all the task outputs as a unified set of instances with calibrated ID information, thereby alleviating the degradation of task-specific knowledge during multi-task training. SATA demonstrates superior performance on 18 challenging tracking and segmentation benchmarks, offering a novel perspective for more generalizable video understanding.
- Abstract(参考訳): 追跡とセグメンテーションは、ビデオ理解において不可欠な役割を担い、基本的な位置情報とビデオシーケンス内のオブジェクトの時間的関連を提供する。
彼らの共通の目的にもかかわらず、既存のアプローチは、しばしば特定のアーキテクチャやモダリティ固有のパラメータを使ってこれらのタスクに取り組み、一般化とスケーラビリティを制限します。
最近の研究は、モーダル入力やマルチタスク推論の観点から、複数のトラッキングとセグメンテーションのサブタスクを統一しようと試みている。
しかしながら、これらのアプローチは、異なるモダリティ間の分配的ギャップとタスク間の特徴表現的ギャップという、2つの重要な課題を見逃す傾向にある。
これらの問題は効果的なクロスタスクとクロスモーダルな知識共有を妨げ、最終的には真のジェネラリストモデルの開発を妨げている。
これらの制約に対処するため,SATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し,このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
具体的には,Decoupled Mixture-of-Expert(DeMoE)機構を用いて,統合表現学習タスクを相互共有知識と固有情報のモデリングプロセスに分離し,一般化性を高めつつモデルの柔軟性を維持する。
さらに,タスク認識型マルチオブジェクト追跡(TaMOT)パイプラインを導入し,タスク出力を校正ID情報で統一したインスタンス集合として統一することにより,マルチタスクトレーニング時のタスク固有知識の劣化を軽減する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
関連論文リスト
- Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multi-View representation learning in Multi-Task Scene [4.509968166110557]
我々は,MTMVCSF(Common and Special Features)に基づくマルチタスク多視点学習(multi-Task Multi-View learning)と呼ばれる,新しい半教師付きアルゴリズムを提案する。
AN-MTMVCSFと呼ばれるマルチタスク・マルチタスク・マルチビュー・アルゴリズムが提案されている。
これらのアルゴリズムの有効性は、実世界と合成データの双方でよく設計された実験によって証明される。
論文 参考訳(メタデータ) (2022-01-15T11:26:28Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。