Fugu-MT 論文翻訳(概要): Self-supervised Spatiotemporal Representation Learning by Exploiting Video Continuity

論文の概要: Self-supervised Spatiotemporal Representation Learning by Exploiting Video Continuity

arxiv url: http://arxiv.org/abs/2112.05883v1
Date: Sat, 11 Dec 2021 00:35:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-14 15:24:34.536364
Title: Self-supervised Spatiotemporal Representation Learning by Exploiting Video Continuity
Title（参考訳）: 連続映像の爆発による自己教師付き時空間表現学習
Authors: Hanwen Liang, Niamul Quader, Zhixiang Chi, Lizhe Chen, Peng Dai, Juwei Lu, Yang Wang
Abstract要約: この研究は、自己教師付き表現学習のための監視信号を得るために、ビデオの本質的かつ未探索な性質であるテキストビデオ連続性を利用する。連続性正当性、不連続性局所化、欠落部分近似の3つの新しい連続性関連前提タスクを定式化する。連続知覚ネットワーク(CPNet)と呼ばれるこの自己超越的アプローチは、3つのタスクを完全に解決し、バックボーンネットワークが局所的かつ長距離な動きとコンテキスト表現を学習することを奨励する。
参考スコア（独自算出の注目度）: 15.429045937335236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent self-supervised video representation learning methods have found significant success by exploring essential properties of videos, e.g. speed, temporal order, etc. This work exploits an essential yet under-explored property of videos, the \textit{video continuity}, to obtain supervision signals for self-supervised representation learning. Specifically, we formulate three novel continuity-related pretext tasks, i.e. continuity justification, discontinuity localization, and missing section approximation, that jointly supervise a shared backbone for video representation learning. This self-supervision approach, termed as Continuity Perception Network (CPNet), solves the three tasks altogether and encourages the backbone network to learn local and long-ranged motion and context representations. It outperforms prior arts on multiple downstream tasks, such as action recognition, video retrieval, and action localization. Additionally, the video continuity can be complementary to other coarse-grained video properties for representation learning, and integrating the proposed pretext task to prior arts can yield much performance gains.
Abstract（参考訳）: 近年の自己監督型ビデオ表現学習法は,速度や時間順などのビデオの本質的特性を探求することによって,大きな成功を収めている。この研究は、自己教師付き表現学習のための監督信号を取得するために、ビデオの必須だが未熟な性質である \textit{video continuity} を利用する。具体的には,映像表現学習のための共有バックボーンを共同で管理する,連続性正当化,不連続性局在化,欠落区間近似という3つの新しい連続性関連前文課題を定式化した。この自己超越的アプローチは連続知覚ネットワーク(CPNet)と呼ばれ、3つのタスクを完全に解決し、バックボーンネットワークが局所的かつ長距離な動きとコンテキスト表現を学習することを奨励する。これは、アクション認識、ビデオ検索、アクションローカライゼーションなど、複数の下流タスクにおける先行技術を上回る。さらに、映像連続性は表現学習のための他の粗粒度ビデオ特性と相補的となり、提案するプリテキストタスクを先行技術に統合することで、多くのパフォーマンス向上が期待できる。

関連論文リスト

STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-10-21T07:44:44Z)
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文参考訳（メタデータ） (2024-03-18T04:30:31Z)
No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文参考訳（メタデータ） (2023-12-20T13:20:31Z)
TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文参考訳（メタデータ） (2023-03-09T10:46:23Z)
SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文参考訳（メタデータ） (2022-10-20T15:21:51Z)
Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文参考訳（メタデータ） (2022-01-14T02:14:07Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Learning Actor-centered Representations for Action Localization in Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T06:06:58Z)
Unsupervised Learning of Video Representations via Dense Trajectory Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文参考訳（メタデータ） (2020-06-28T22:23:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。