論文の概要: Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video
Object Segmentation Easier
- arxiv url: http://arxiv.org/abs/2112.12402v1
- Date: Thu, 23 Dec 2021 07:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:42:18.663143
- Title: Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video
Object Segmentation Easier
- Title(参考訳): 簡単な参照フレームを反復的に選択することで、教師なしビデオオブジェクトのセグメンテーションがより簡単になる
- Authors: Youngjo Lee, Hongje Seong, Euntai Kim
- Abstract要約: 非教師付きビデオオブジェクトセグメンテーション(UVOS)は、前景オブジェクトの真理(GT)マスクを使わずに、前景オブジェクトをビデオの背景から分離することを目的としている。
以前のUVOSモデルは、最初のフレームまたはビデオ全体を参照フレームとして使用し、前景オブジェクトのマスクを指定する。
参照フレームとして、第1フレームやビデオ全体のみを使用することよりも、UVOSのパフォーマンスを向上させるために、より優れた参照フレームを選択することができると信じている。
- 参考スコア(独自算出の注目度): 9.11515991493206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation (UVOS) is a per-pixel binary labeling
problem which aims at separating the foreground object from the background in
the video without using the ground truth (GT) mask of the foreground object.
Most of the previous UVOS models use the first frame or the entire video as a
reference frame to specify the mask of the foreground object. Our question is
why the first frame should be selected as a reference frame or why the entire
video should be used to specify the mask. We believe that we can select a
better reference frame to achieve the better UVOS performance than using only
the first frame or the entire video as a reference frame. In our paper, we
propose Easy Frame Selector (EFS). The EFS enables us to select an 'easy'
reference frame that makes the subsequent VOS become easy, thereby improving
the VOS performance. Furthermore, we propose a new framework named as Iterative
Mask Prediction (IMP). In the framework, we repeat applying EFS to the given
video and selecting an 'easier' reference frame from the video than the
previous iteration, increasing the VOS performance incrementally. The IMP
consists of EFS, Bi-directional Mask Prediction (BMP), and Temporal Information
Updating (TIU). From the proposed framework, we achieve state-of-the-art
performance in three UVOS benchmark sets: DAVIS16, FBMS, and SegTrack-V2.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーション(unsupervised video object segmentation,uvos)は、フォアグラウンドオブジェクトのグラウンド真理(gt)マスクを使わずに、フォアグラウンドオブジェクトをビデオの背景から分離することを目的としたピクセル単位のバイナリラベリング問題である。
以前のUVOSモデルは、最初のフレームまたはビデオ全体を参照フレームとして使用し、前景オブジェクトのマスクを指定する。
我々の疑問は、なぜ最初のフレームが参照フレームとして選択されるべきなのか、また、ビデオ全体を使ってマスクを指定すべきなのかである。
最初のフレームやビデオ全体を参照フレームとして使用するよりも、uvosのパフォーマンス向上のためにより良い参照フレームを選択することができると考えています。
本稿では,簡単なフレームセレクタ(EFS)を提案する。
EFSにより、後続のVOSが容易になり、VOSの性能が向上する「簡単」参照フレームを選択することができる。
さらに,反復マスク予測(IMP)と呼ばれる新しいフレームワークを提案する。
本フレームワークでは,所定のビデオにEFSを適用して,ビデオからより簡単な参照フレームを選択することで,VOSの性能を漸進的に向上させる。
IMPは、EFS、双方向マスク予測(BMP)、時間情報更新(TIU)で構成されている。
提案したフレームワークから,DAVIS16,FBMS,SegTrack-V2という3つのUVOSベンチマークセットの最先端性能を実現する。
関連論文リスト
- One-shot Training for Video Object Segmentation [11.52321103793505]
Video Object(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。
これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。
VOSのための一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオあたりのラベル付きフレームは1つしか必要としない。
論文 参考訳(メタデータ) (2024-05-22T21:37:08Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: TREK-150 Single
Object Tracking [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16と8の2つの特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
設計の有効性の証明として,EPIC-KITCHENS TREK-150 Object Tracking Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2023-07-05T03:50:58Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video
Object Segmentation [6.681252581083198]
Unsupervised Video Object (UVOS) は、オブジェクトを発見し、ビデオを通して追跡することを目的としている。
本稿では,オブジェクト確率マスクを組み込んだグラフを用いて,鍵フレームの提案を推論する。
半教師付きVOSアルゴリズムはその後、ビデオ全体のキーフレーム提案を追跡する。
論文 参考訳(メタデータ) (2023-01-29T04:12:44Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Layered Controllable Video Generation [45.87154460868496]
我々は,ビデオの初期フレームを前景層と背景層に分解する,制御可能な階層化ビデオ生成を導入する。
主な課題は、教師なしのフォアグラウンドとバックグラウンドの分離であり、曖昧であり、ユーザー操作を予測できる能力である。
この学習の有効性と,より粒度の細かい制御機構を示すとともに,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2021-11-24T19:10:05Z) - Pixel-Level Bijective Matching for Video Object Segmentation [5.534170059632168]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオの初期フレームに存在する指定されたオブジェクトをピクセルレベルで追跡することを目的としている。
オブジェクトの外観情報をフル活用するために、VOSでは画素レベルの特徴マッチングが広く使われている。
論文 参考訳(メタデータ) (2021-10-04T18:15:45Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。