論文の概要: Matching Anything by Segmenting Anything
- arxiv url: http://arxiv.org/abs/2406.04221v1
- Date: Thu, 6 Jun 2024 16:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:59:57.824528
- Title: Matching Anything by Segmenting Anything
- Title(参考訳): セグメンテーション(セグメンテーション)によるマッチング
- Authors: Siyuan Li, Lei Ke, Martin Danelljan, Luigi Piccinelli, Mattia Segu, Luc Van Gool, Fisher Yu,
- Abstract要約: 我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 109.2507425045143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The robust association of the same objects across video frames in complex scenes is crucial for many applications, especially Multiple Object Tracking (MOT). Current methods predominantly rely on labeled domain-specific video datasets, which limits the cross-domain generalization of learned similarity embeddings. We propose MASA, a novel method for robust instance association learning, capable of matching any objects within videos across diverse domains without tracking labels. Leveraging the rich object segmentation from the Segment Anything Model (SAM), MASA learns instance-level correspondence through exhaustive data transformations. We treat the SAM outputs as dense object region proposals and learn to match those regions from a vast image collection. We further design a universal MASA adapter which can work in tandem with foundational segmentation or detection models and enable them to track any detected objects. Those combinations present strong zero-shot tracking ability in complex domains. Extensive tests on multiple challenging MOT and MOTS benchmarks indicate that the proposed method, using only unlabeled static images, achieves even better performance than state-of-the-art methods trained with fully annotated in-domain video sequences, in zero-shot association. Project Page: https://matchinganything.github.io/
- Abstract(参考訳): 複雑なシーンにおけるビデオフレーム間の同じオブジェクトのロバストな関連は、多くのアプリケーション、特にMultiple Object Tracking (MOT)にとって不可欠である。
現在の手法は主にラベル付きドメイン固有のビデオデータセットに依存しており、学習された類似性埋め込みのドメイン間一般化を制限する。
ラベルを追跡せずにビデオ内の任意のオブジェクトをマッチングできる,ロバストなインスタンスアソシエイト学習手法であるMASAを提案する。
SAM(Segment Anything Model)からリッチなオブジェクトセグメンテーションを活用することで、MASAは全データ変換を通じてインスタンスレベルの対応を学習する。
SAM出力を高密度なオブジェクト領域の提案として扱い、膨大な画像収集からそれらの領域に一致することを学習する。
さらに,基本セグメンテーションや検出モデルと連動して動作し,検出対象の追跡を可能にする汎用MASAアダプタを設計する。
これらの組み合わせは、複雑な領域において強いゼロショット追跡能力を示す。
複数の挑戦的MOTおよびMOTSベンチマークの広範囲なテストにより、提案手法は、ゼロショットアソシエイトにおいて、完全アノテーション付きドメイン内ビデオシーケンスでトレーニングされた最先端の手法よりも、より優れたパフォーマンスが得られることが示された。
Project Page: https://matchinganything.github.io/
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Multi-Object Tracking and Segmentation via Neural Message Passing [0.0]
グラフは、Multiple Object Tracking (MOT) とMultiple Object Tracking (MOTS) を定式化する自然な方法を提供する。
我々は、メッセージパッシングネットワーク(MPN)に基づく、完全に差別化可能なフレームワークを定義するために、MOTの古典的なネットワークフロー定式化を利用する。
いくつかの公開データセットにおけるトラッキングとセグメンテーションの両面での最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-15T13:03:47Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - End-to-End Multi-Object Tracking with Global Response Map [23.755882375664875]
画像シーケンス/映像を入力とし、学習対象の位置と追跡対象を直接出力する、完全にエンドツーエンドのアプローチを提案する。
具体的には,提案した多目的表現戦略により,グローバル応答マップをフレーム上で正確に生成することができる。
MOT16 と MOT17 のベンチマークによる実験結果から,提案したオンライントラッカーは,いくつかのトラッキング指標において最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-07-13T12:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。