論文の概要: VideoClick: Video Object Segmentation with a Single Click
- arxiv url: http://arxiv.org/abs/2101.06545v1
- Date: Sat, 16 Jan 2021 23:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 04:30:54.772601
- Title: VideoClick: Video Object Segmentation with a Single Click
- Title(参考訳): VideoClick: ワンクリックでビデオオブジェクトのセグメンテーション
- Authors: Namdar Homayounfar, Justin Liang, Wei-Chiu Ma, Raquel Urtasun
- Abstract要約: ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 93.7733828038616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating videos with object segmentation masks typically involves a two
stage procedure of drawing polygons per object instance for all the frames and
then linking them through time. While simple, this is a very tedious, time
consuming and expensive process, making the creation of accurate annotations at
scale only possible for well-funded labs. What if we were able to segment an
object in the full video with only a single click? This will enable video
segmentation at scale with a very low budget opening the door to many
applications. Towards this goal, in this paper we propose a bottom up approach
where given a single click for each object in a video, we obtain the
segmentation masks of these objects in the full video. In particular, we
construct a correlation volume that assigns each pixel in a target frame to
either one of the objects in the reference frame or the background. We then
refine this correlation volume via a recurrent attention module and decode the
final segmentation. To evaluate the performance, we label the popular and
challenging Cityscapes dataset with video object segmentations. Results on this
new CityscapesVideo dataset show that our approach outperforms all the
baselines in this challenging setting.
- Abstract(参考訳): オブジェクトセグメンテーションマスクによるビデオの注釈付けは通常、すべてのフレームに対してオブジェクトインスタンスごとにポリゴンを描画し、時間をかけてリンクする2段階の手順を含む。
シンプルではあるが、これは非常に退屈で時間がかかり、費用がかかるプロセスであり、資金が潤沢なラボでしか正確なアノテーションを作成できない。
もし1クリックで1つのオブジェクトをフルビデオにセグメントできたらどうだろう?
これにより、大規模なビデオセグメンテーションが可能になり、予算が極めて低く、多くのアプリケーションへの扉を開くことができる。
この目的に向けて,本論文では,ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを、参照フレームまたは背景のオブジェクトのいずれかに割り当てる相関ボリュームを構成する。
そして、この相関ボリュームをリカレントアテンションモジュールを通じて洗練し、最終セグメンテーションをデコードする。
パフォーマンスを評価するために、Cityscapesの人気の挑戦的なデータセットにビデオオブジェクトのセグメンテーションをラベル付けする。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - ClickVOS: Click Video Object Segmentation [29.20434078000283]
Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
論文 参考訳(メタデータ) (2024-03-10T08:37:37Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Video Object of Interest Segmentation [27.225312139360963]
我々はVOIS (Video Object of interest segmentation) という新しいコンピュータビジョンタスクを提案する。
ビデオと対象画像が与えられた場合、対象画像に関連するすべてのオブジェクトを同時にセグメンテーションし、追跡することが目的である。
既存のデータセットはこの新しいタスクに完全に適合しないので、特にLiveVideosと呼ばれる大規模なデータセットを構築します。
論文 参考訳(メタデータ) (2022-12-06T10:21:10Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。