論文の概要: HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images
- arxiv url: http://arxiv.org/abs/2112.09131v1
- Date: Thu, 16 Dec 2021 18:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:27:41.508209
- Title: HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images
- Title(参考訳): HODOR:静的画像から学習したビデオにおけるオブジェクト再分割のための高レベルオブジェクト記述子
- Authors: Ali Athar, Jonathon Luiten, Alexander Hermans, Deva Ramanan, Bastian
Leibe
- Abstract要約: オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
- 参考スコア(独自算出の注目度): 123.65233334380251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing state-of-the-art methods for Video Object Segmentation (VOS) learn
low-level pixel-to-pixel correspondences between frames to propagate object
masks across video. This requires a large amount of densely annotated video
data, which is costly to annotate, and largely redundant since frames within a
video are highly correlated. In light of this, we propose HODOR: a novel method
that tackles VOS by effectively leveraging annotated static images for
understanding object appearance and scene context. We encode object instances
and scene information from an image frame into robust high-level descriptors
which can then be used to re-segment those objects in different frames. As a
result, HODOR achieves state-of-the-art performance on the DAVIS and
YouTube-VOS benchmarks compared to existing methods trained without video
annotations. Without any architectural modification, HODOR can also learn from
video context around single annotated video frames by utilizing cyclic
consistency, whereas other methods rely on dense, temporally consistent
annotations.
- Abstract(参考訳): 既存のビデオオブジェクトセグメンテーション(VOS)は、フレーム間の低レベルのピクセル間対応を学習し、ビデオ間でオブジェクトマスクを伝搬する。
これは、動画内のフレームが高い相関関係にあるため、注釈を付けるのにコストがかかり、非常に冗長な、大量の密集した注釈付きビデオデータを必要とする。
そこで本研究では,オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用し,VOSに取り組む新しい手法であるHODORを提案する。
画像フレームからオブジェクトインスタンスとシーン情報をロバストなハイレベルなディスクリプタにエンコードし、それらのオブジェクトを異なるフレームで再セグメント化します。
その結果、HODORはビデオアノテーションなしでトレーニングされた既存の方法と比較して、DAVISとYouTube-VOSのベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更がなければ、HODORはサイクリック一貫性を利用して単一のアノテーション付きビデオフレームに関するビデオコンテキストから学ぶこともできるが、他の手法は密で時間的に一貫したアノテーションに依存している。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。