論文の概要: XMem++: Production-level Video Segmentation From Few Annotated Frames
- arxiv url: http://arxiv.org/abs/2307.15958v2
- Date: Tue, 15 Aug 2023 11:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:57:55.850042
- Title: XMem++: Production-level Video Segmentation From Few Annotated Frames
- Title(参考訳): XMem++: 注釈付きフレームからのプロダクションレベルのビデオセグメンテーション
- Authors: Maksym Bekuzarov, Ariana Bermudez, Joon-Young Lee, Hao Li
- Abstract要約: 本稿では,既存のメモリベースモデルを改善する半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。
本手法は,要求されるフレームアノテーション数を低く保ちながら,高度に一貫した結果を抽出することができる。
我々は,難易度(部分的・複数クラス)のセグメンテーションシナリオと長大なビデオ上でのSOTA性能を実証する。
- 参考スコア(独自算出の注目度): 32.68978079571079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advancements in user-guided video segmentation, extracting complex
objects consistently for highly complex scenes is still a labor-intensive task,
especially for production. It is not uncommon that a majority of frames need to
be annotated. We introduce a novel semi-supervised video object segmentation
(SSVOS) model, XMem++, that improves existing memory-based models, with a
permanent memory module. Most existing methods focus on single frame
annotations, while our approach can effectively handle multiple user-selected
frames with varying appearances of the same object or region. Our method can
extract highly consistent results while keeping the required number of frame
annotations low. We further introduce an iterative and attention-based frame
suggestion mechanism, which computes the next best frame for annotation. Our
method is real-time and does not require retraining after each user input. We
also introduce a new dataset, PUMaVOS, which covers new challenging use cases
not found in previous benchmarks. We demonstrate SOTA performance on
challenging (partial and multi-class) segmentation scenarios as well as long
videos, while ensuring significantly fewer frame annotations than any existing
method. Project page: https://max810.github.io/xmem2-project-page/
- Abstract(参考訳): ユーザ誘導ビデオセグメンテーションの進歩にもかかわらず、高度に複雑なシーンを一貫して抽出することは、特に生産において労働集約的な作業である。
フレームの大多数が注釈を付ける必要があることは珍しくない。
本稿では,既存のメモリベースモデルを改善する,新しい半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。
既存の手法の多くは単一フレームアノテーションに焦点をあてるが,本手法では同一オブジェクトや領域の外観が異なる複数のユーザ選択フレームを効果的に扱うことができる。
本手法はフレームアノテーションの必要な数を低く保ちつつ,一貫性の高い結果を抽出することができる。
さらに,アノテーションの次の最適なフレームを計算する,反復的かつ注意に基づくフレーム提案機構を導入する。
提案手法はリアルタイムであり,各ユーザの入力後の再学習を必要としない。
また、新しいデータセットであるpumavosも導入しています。
我々は,既存の手法よりもフレームアノテーションを著しく少なくしながら,難易度(部分的・複数クラス)のセグメンテーションシナリオと長ビデオ上でのSOTA性能を実証する。
プロジェクトページ: https://max810.github.io/xmem2-project-page/
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Video Instance Segmentation using Inter-Frame Communication Transformers [28.539742250704695]
最近では、フレーム単位のパイプラインは、フレーム単位のメソッドよりも優れたパフォーマンスを示している。
以前は、フレーム間通信を実現するために、大量の計算とメモリ使用量が必要だった。
フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信変換器(IFC)を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:08:39Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。