論文の概要: Boundary-aware Self-supervised Learning for Video Scene Segmentation
- arxiv url: http://arxiv.org/abs/2201.05277v1
- Date: Fri, 14 Jan 2022 02:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 15:01:58.210884
- Title: Boundary-aware Self-supervised Learning for Video Scene Segmentation
- Title(参考訳): 映像シーンセグメンテーションのための境界認識自己教師付き学習
- Authors: Jonghwan Mun, Minchul Shin, Gunsoo Han, Sangho Lee, Seongsu Ha,
Joonseok Lee, Eun-Sol Kim
- Abstract要約: シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
- 参考スコア(独自算出の注目度): 20.713635723315527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning has drawn attention through its effectiveness in
learning in-domain representations with no ground-truth annotations; in
particular, it is shown that properly designed pretext tasks (e.g., contrastive
prediction task) bring significant performance gains for downstream tasks
(e.g., classification task). Inspired from this, we tackle video scene
segmentation, which is a task of temporally localizing scene boundaries in a
video, with a self-supervised learning framework where we mainly focus on
designing effective pretext tasks. In our framework, we discover a
pseudo-boundary from a sequence of shots by splitting it into two continuous,
non-overlapping sub-sequences and leverage the pseudo-boundary to facilitate
the pre-training. Based on this, we introduce three novel boundary-aware
pretext tasks: 1) Shot-Scene Matching (SSM), 2) Contextual Group Matching (CGM)
and 3) Pseudo-boundary Prediction (PP); SSM and CGM guide the model to maximize
intra-scene similarity and inter-scene discrimination while PP encourages the
model to identify transitional moments. Through comprehensive analysis, we
empirically show that pre-training and transferring contextual representation
are both critical to improving the video scene segmentation performance.
Lastly, we achieve the new state-of-the-art on the MovieNet-SSeg benchmark. The
code is available at https://github.com/kakaobrain/bassl.
- Abstract(参考訳): 自己教師付き学習は、基礎的アノテーションを使わずにドメイン内表現を学習することの有効性に注目が集まっている。特に、適切に設計された前文タスク(例えば、対照予測タスク)は、下流タスク(例えば分類タスク)に大幅なパフォーマンス向上をもたらすことが示されている。
そこで,本研究では,映像内のシーン境界を時間的に局所化するタスクである映像シーンセグメンテーションに,効果的なプリテキストタスクの設計を主眼とした自己教師あり学習フレームワークを導入する。
提案手法では,ショット列から擬似境界を2つの連続的非重複部分列に分割し,擬似境界を利用して事前学習を容易にする。
これに基づいて、3つの新しい境界対応プレテキストタスクを導入する。
1)ショットシーンマッチング(SSM)
2)文脈的グループマッチング(cgm)および
3) Pseudo-boundary Prediction (PP), SSM と CGM は,SSM と CGM のモデルを用いて,シーン内類似性とシーン間識別を最大化し,PP は遷移モーメントの同定を奨励する。
包括的分析により,映像シーンのセグメンテーション性能を向上させるために,事前学習と文脈表現の伝達が重要であることを示す。
最後に、movienet-ssegベンチマークで最新技術を達成する。
コードはhttps://github.com/kakaobrain/basslで入手できる。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Set-Constrained Viterbi for Set-Supervised Action Segmentation [40.22433538226469]
本論文は、弱い教師付きアクションセグメンテーションについて述べる。
基礎的な真実は、トレーニングビデオに存在する一連のアクションのみを特定するが、真の時間的順序は示さない。
我々は、アクションクラスとその時間的長さの共起を考慮に入れたHMMを指定することで、このフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-27T05:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。