論文の概要: Track Anything: Segment Anything Meets Videos
- arxiv url: http://arxiv.org/abs/2304.11968v1
- Date: Mon, 24 Apr 2023 10:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:20:54.603296
- Title: Track Anything: Segment Anything Meets Videos
- Title(参考訳): Segment Anythingがビデオと出会う(動画あり)
- Authors: Jinyu Yang, Mingqi Gao, Zhe Li, Shang Gao, Fangjing Wang, Feng Zheng
- Abstract要約: 本稿では,高能率なインタラクティブなトラッキングとセグメンテーションを実現するTrack Anything Model (TAM)を提案する。
詳しくは、人間の参加がほとんどなく、例えば、数回のクリックで興味のあるものを追跡でき、ワンパス推論で満足な結果が得られる。
- 参考スコア(独自算出の注目度): 35.83705084293762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Segment Anything Model (SAM) gains lots of attention rapidly
due to its impressive segmentation performance on images. Regarding its strong
ability on image segmentation and high interactivity with different prompts, we
found that it performs poorly on consistent segmentation in videos. Therefore,
in this report, we propose Track Anything Model (TAM), which achieves
high-performance interactive tracking and segmentation in videos. To be
detailed, given a video sequence, only with very little human participation,
\textit{i.e.}, several clicks, people can track anything they are interested
in, and get satisfactory results in one-pass inference. Without additional
training, such an interactive design performs impressively on video object
tracking and segmentation. All resources are available on
\url{https://github.com/gaomingqi/Track-Anything}. We hope this work can
facilitate related research.
- Abstract(参考訳): 近年,画像上のセグメンテーション性能により,SAM(Segment Anything Model)が急速に注目されている。
画像のセグメンテーションにおける強い能力と異なるプロンプトによる高い対話性について,ビデオ内の一貫したセグメンテーションでは不十分であることが判明した。
そこで本報告では,ビデオの対話的追跡とセグメンテーションを高速に行うTrack Anything Model (TAM)を提案する。
詳しくは、ビデオシーケンスを考慮すれば、人間の参加はほとんどなく、いくつかのクリックで興味のあるものを追跡でき、ワンパス推論で満足な結果が得られる。
追加のトレーニングがなければ、このようなインタラクティブなデザインは、ビデオオブジェクトのトラッキングとセグメンテーションに素晴らしい効果を発揮する。
すべてのリソースは \url{https://github.com/gaomingqi/Track-Anything} で利用可能である。
この研究が関連研究を促進できることを願っています。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。