論文の概要: Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2301.12352v1
- Date: Sun, 29 Jan 2023 04:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:32:59.546233
- Title: Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video
Object Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのためのマルチフレーム提案グラフの最大傾き
- Authors: Jialin Yuan, Jay Patravali, Hung Nguyen, Chanho Kim, Li Fuxin
- Abstract要約: Unsupervised Video Object (UVOS) は、オブジェクトを発見し、ビデオを通して追跡することを目的としている。
本稿では,オブジェクト確率マスクを組み込んだグラフを用いて,鍵フレームの提案を推論する。
半教師付きVOSアルゴリズムはその後、ビデオ全体のキーフレーム提案を追跡する。
- 参考スコア(独自算出の注目度): 6.681252581083198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Video Object Segmentation (UVOS) aims at discovering objects and
tracking them through videos. For accurate UVOS, we observe if one can locate
precise segment proposals on key frames, subsequent processes are much simpler.
Hence, we propose to reason about key frame proposals using a graph built with
the object probability masks initially generated from multiple frames around
the key frame and then propagated to the key frame. On this graph, we compute
maximal cliques, with each clique representing one candidate object. By making
multiple proposals in the clique to vote for the key frame proposal, we obtain
refined key frame proposals that could be better than any of the single-frame
proposals. A semi-supervised VOS algorithm subsequently tracks these key frame
proposals to the entire video. Our algorithm is modular and hence can be used
with any instance segmentation and semi-supervised VOS algorithm. We achieve
state-of-the-art performance on the DAVIS-2017 validation and test-dev dataset.
On the related problem of video instance segmentation, our method shows
competitive performance with the previous best algorithm that requires joint
training with the VOS algorithm.
- Abstract(参考訳): Unsupervised Video Object Segmentation (UVOS)は、オブジェクトを発見し、ビデオを通して追跡することを目的としている。
正確なUVOSのために、キーフレーム上の正確なセグメント提案を特定できるかどうかを観察する。
そこで本稿では,まず複数のフレームから生成したオブジェクト確率マスクを用いて構築したグラフを用いて,キーフレームの提案を推理し,その後キーフレームに伝播する。
このグラフ上で、最大傾きを計算し、各傾きは1つの候補対象を表す。
キーフレーム提案に投票する複数の提案を行うことにより,単一フレーム提案のどの提案よりも優れた,洗練されたキーフレーム提案を得る。
半教師付きVOSアルゴリズムはその後、ビデオ全体のキーフレーム提案を追跡する。
我々のアルゴリズムはモジュール化されており、任意のインスタンスセグメンテーションと半教師付きVOSアルゴリズムで使用できる。
DAVIS-2017バリデーションとtest-devデータセットで最先端のパフォーマンスを実現する。
ビデオ・インスタンス・セグメンテーションの問題点について,VOSアルゴリズムとの協調学習を必要とする従来の最良のアルゴリズムと競合する性能を示す。
関連論文リスト
- Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Learning to Recommend Frame for Interactive Video Object Segmentation in
the Wild [38.39582722095913]
本稿では,野生のインタラクティブビデオオブジェクトセグメンテーション(VOS)のためのフレームワークを提案する。
ユーザーアノテーションに基づいて、セグメンテーションアルゴリズムはマスクを洗練します。
本稿では,最悪の評価基準を持つフレームが,必ずしも最も価値の高いフレームではない可能性を示唆する。
論文 参考訳(メタデータ) (2021-03-18T17:19:47Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。