論文の概要: Learning to Recommend Frame for Interactive Video Object Segmentation in
the Wild
- arxiv url: http://arxiv.org/abs/2103.10391v1
- Date: Thu, 18 Mar 2021 17:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:58:05.364877
- Title: Learning to Recommend Frame for Interactive Video Object Segmentation in
the Wild
- Title(参考訳): 野生のインタラクティブビデオオブジェクトセグメンテーションのためのフレーム推薦のための学習
- Authors: Zhaoyuan Yin, Jia Zheng, Weixin Luo, Shenhan Qian, Hanling Zhang,
Shenghua Gao
- Abstract要約: 本稿では,野生のインタラクティブビデオオブジェクトセグメンテーション(VOS)のためのフレームワークを提案する。
ユーザーアノテーションに基づいて、セグメンテーションアルゴリズムはマスクを洗練します。
本稿では,最悪の評価基準を持つフレームが,必ずしも最も価値の高いフレームではない可能性を示唆する。
- 参考スコア(独自算出の注目度): 38.39582722095913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a framework for the interactive video object segmentation
(VOS) in the wild where users can choose some frames for annotations
iteratively. Then, based on the user annotations, a segmentation algorithm
refines the masks. The previous interactive VOS paradigm selects the frame with
some worst evaluation metric, and the ground truth is required for calculating
the evaluation metric, which is impractical in the testing phase. In contrast,
in this paper, we advocate that the frame with the worst evaluation metric may
not be exactly the most valuable frame that leads to the most performance
improvement across the video. Thus, we formulate the frame selection problem in
the interactive VOS as a Markov Decision Process, where an agent is learned to
recommend the frame under a deep reinforcement learning framework. The learned
agent can automatically determine the most valuable frame, making the
interactive setting more practical in the wild. Experimental results on the
public datasets show the effectiveness of our learned agent without any changes
to the underlying VOS algorithms. Our data, code, and models are available at
https://github.com/svip-lab/IVOS-W.
- Abstract(参考訳): 本稿では,対話型ビデオオブジェクトセグメンテーション(VOS)のためのフレームワークを提案する。
次に、ユーザアノテーションに基づいて、セグメンテーションアルゴリズムがマスクを洗練する。
従来の対話型vosパラダイムは,最悪の評価基準を持つフレームを選択し,テスト段階では実用的でない評価基準の計算には基礎的真理が必要である。
対照的に,本論文では,最悪の評価基準を持つフレームが,ビデオ全体のパフォーマンス向上に繋がる上で,必ずしも価値の高いフレームではないことを主張する。
そこで我々は,対話型vosにおけるフレーム選択問題をマルコフ決定プロセスとして定式化し,エージェントが深層強化学習フレームワークでフレームを推薦することを学習する。
学習エージェントは、最も価値のあるフレームを自動的に決定し、対話的な設定をより実用的なものにすることができる。
公開データセットの実験結果から,基礎となるVOSアルゴリズムを変更することなく,学習エージェントの有効性が示された。
私たちのデータ、コード、モデルはhttps://github.com/svip-lab/ivos-wで利用可能です。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。
すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文 参考訳(メタデータ) (2024-05-11T15:09:22Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Maximal Cliques on Multi-Frame Proposal Graph for Unsupervised Video
Object Segmentation [6.681252581083198]
Unsupervised Video Object (UVOS) は、オブジェクトを発見し、ビデオを通して追跡することを目的としている。
本稿では,オブジェクト確率マスクを組み込んだグラフを用いて,鍵フレームの提案を推論する。
半教師付きVOSアルゴリズムはその後、ビデオ全体のキーフレーム提案を追跡する。
論文 参考訳(メタデータ) (2023-01-29T04:12:44Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。