論文の概要: Learning by Aligning Videos in Time
- arxiv url: http://arxiv.org/abs/2103.17260v1
- Date: Wed, 31 Mar 2021 17:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:28:54.177797
- Title: Learning by Aligning Videos in Time
- Title(参考訳): ビデオの時間的アライメントによる学習
- Authors: Sanjay Haresh and Sateesh Kumar and Huseyin Coskun and Shahram Najam
Syed and Andrey Konin and Muhammad Zeeshan Zia and Quoc-Huy Tran
- Abstract要約: 時間的ビデオアライメントを前提タスクとして,ビデオ表現を学習するための自己監督型アプローチを提案する。
エンコーダネットワークを訓練するための監視信号として使用できる時間アライメント損失と時間正規化条件の新規な組み合わせを活用します。
- 参考スコア(独自算出の注目度): 7.372366394947394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a self-supervised approach for learning video representations
using temporal video alignment as a pretext task, while exploiting both
frame-level and video-level information. We leverage a novel combination of
temporal alignment loss and temporal regularization terms, which can be used as
supervision signals for training an encoder network. Specifically, the temporal
alignment loss (i.e., Soft-DTW) aims for the minimum cost for temporally
aligning videos in the embedding space. However, optimizing solely for this
term leads to trivial solutions, particularly, one where all frames get mapped
to a small cluster in the embedding space. To overcome this problem, we propose
a temporal regularization term (i.e., Contrastive-IDM) which encourages
different frames to be mapped to different points in the embedding space.
Extensive evaluations on various tasks, including action phase classification,
action phase progression, and fine-grained frame retrieval, on three datasets,
namely Pouring, Penn Action, and IKEA ASM, show superior performance of our
approach over state-of-the-art methods for self-supervised representation
learning from videos. In addition, our method provides significant performance
gain where labeled data is lacking.
- Abstract(参考訳): 本稿では,時間的映像アライメントをプリテキストタスクとして,フレームレベルとビデオレベルの情報を活用しながら,映像表現を学習するための自己教師あり手法を提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
具体的には、時間的アライメント損失(Soft-DTW)は、埋め込み空間におけるビデオの時間的アライメントの最小コストを目標とする。
しかし、この項のみを最適化することは、特にすべてのフレームが埋め込み空間の小さなクラスタにマッピングされるような、自明な解決につながる。
この問題を克服するために,組込み空間内の異なる点に異なるフレームをマッピングすることを奨励する時間正規化項(コントラストidm)を提案する。
アクションフェーズの分類,アクションフェーズの進行,微粒化フレームの検索など,多種多様なタスクに対する広範囲な評価は,ビデオからの自己教師型表現学習における最先端の手法よりも,ポーリング,ペンアクション,IKEA ASMの3つのデータセットにおいて優れていることを示す。
さらに,ラベル付きデータが不足している場合,性能が大幅に向上する。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。