論文の概要: ClickVOS: Click Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2403.06130v1
- Date: Sun, 10 Mar 2024 08:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:25:38.599630
- Title: ClickVOS: Click Video Object Segmentation
- Title(参考訳): clickvos: ビデオオブジェクトのセグメンテーションをクリックする
- Authors: Pinxue Guo, Lingyi Hong, Xinyu Zhou, Shuyong Gao, Wanyun Li, Jinglun
Li, Zhaoyu Chen, Xiaoqiang Li, Wei Zhang, Wenqiang Zhang
- Abstract要約: Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
- 参考スコア(独自算出の注目度): 29.20434078000283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Object Segmentation (VOS) task aims to segment objects in videos.
However, previous settings either require time-consuming manual masks of target
objects at the first frame during inference or lack the flexibility to specify
arbitrary objects of interest. To address these limitations, we propose the
setting named Click Video Object Segmentation (ClickVOS) which segments objects
of interest across the whole video according to a single click per object in
the first frame. And we provide the extended datasets DAVIS-P and YouTubeVOSP
that with point annotations to support this task. ClickVOS is of significant
practical applications and research implications due to its only 1-2 seconds
interaction time for indicating an object, comparing annotating the mask of an
object needs several minutes. However, ClickVOS also presents increased
challenges. To address this task, we propose an end-to-end baseline approach
named called Attention Before Segmentation (ABS), motivated by the attention
process of humans. ABS utilizes the given point in the first frame to perceive
the target object through a concise yet effective segmentation attention.
Although the initial object mask is possibly inaccurate, in our ABS, as the
video goes on, the initially imprecise object mask can self-heal instead of
deteriorating due to error accumulation, which is attributed to our designed
improvement memory that continuously records stable global object memory and
updates detailed dense memory. In addition, we conduct various baseline
explorations utilizing off-the-shelf algorithms from related fields, which
could provide insights for the further exploration of ClickVOS. The
experimental results demonstrate the superiority of the proposed ABS approach.
Extended datasets and codes will be available at
https://github.com/PinxueGuo/ClickVOS.
- Abstract(参考訳): Video Object Segmentation (VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
しかしながら、以前の設定では、推論中に最初のフレームでターゲットオブジェクトの時間を要する手動マスクが必要か、あるいは任意のオブジェクトを指定できる柔軟性が欠如している。
この制限に対処するために,第1フレームの1クリックごとに動画全体で興味のあるオブジェクトを分割するclickvos(clickvos)という設定を提案する。
そして、このタスクをサポートするポイントアノテーションを備えた拡張データセットDAVIS-PとYouTubeVOSPを提供します。
ClickVOSは、オブジェクトを示すのにわずか1-2秒のインタラクション時間しかなく、オブジェクトのマスクを注釈付けするのに数分を要するため、重要な実用的応用と研究上の意味を持つ。
しかし、ClickVOSはさらなる課題も提示している。
この課題に対処するために、人間の注意プロセスに動機づけられたABS(Attention Before Segmentation)と呼ばれるエンドツーエンドのベースラインアプローチを提案する。
ABSは、第1フレームの所定点を利用して、簡潔で効果的なセグメンテーション注意を通して対象対象を知覚する。
初期オブジェクトマスクはおそらく不正確であるが、ABSでは、ビデオが進行中であるように、初期不正確なオブジェクトマスクは、エラーの蓄積による劣化ではなく、自己修復が可能であり、これは、安定したグローバルなオブジェクトメモリを継続的に記録し、詳細な高密度メモリを更新する設計上の改善メモリに起因している。
さらに,関連する分野のオフ・ザ・シェルフアルゴリズムを用いた様々なベースライン探索を行い,clickvosのさらなる探索への洞察を提供する。
実験結果は,提案したABSアプローチの優位性を示した。
拡張データセットとコードはhttps://github.com/PinxueGuo/ClickVOSで利用可能になる。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。