Fugu-MT 論文翻訳(概要): Learning by Aligning Videos in Time

論文の概要: Learning by Aligning Videos in Time

arxiv url: http://arxiv.org/abs/2103.17260v2
Date: Thu, 17 Aug 2023 07:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 01:55:06.429514
Title: Learning by Aligning Videos in Time
Title（参考訳）: ビデオの時間的アライメントによる学習
Authors: Sanjay Haresh and Sateesh Kumar and Huseyin Coskun and Shahram Najam Syed and Andrey Konin and Muhammad Zeeshan Zia and Quoc-Huy Tran
Abstract要約: 本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
参考スコア（独自算出の注目度）: 10.075645944474287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a self-supervised approach for learning video representations using temporal video alignment as a pretext task, while exploiting both frame-level and video-level information. We leverage a novel combination of temporal alignment loss and temporal regularization terms, which can be used as supervision signals for training an encoder network. Specifically, the temporal alignment loss (i.e., Soft-DTW) aims for the minimum cost for temporally aligning videos in the embedding space. However, optimizing solely for this term leads to trivial solutions, particularly, one where all frames get mapped to a small cluster in the embedding space. To overcome this problem, we propose a temporal regularization term (i.e., Contrastive-IDM) which encourages different frames to be mapped to different points in the embedding space. Extensive evaluations on various tasks, including action phase classification, action phase progression, and fine-grained frame retrieval, on three datasets, namely Pouring, Penn Action, and IKEA ASM, show superior performance of our approach over state-of-the-art methods for self-supervised representation learning from videos. In addition, our method provides significant performance gain where labeled data is lacking. Our code and labels are available on our research website: https://retrocausal.ai/research/
Abstract（参考訳）: 本稿では,時間的映像アライメントをプリテキストタスクとして,フレームレベルとビデオレベルの情報を活用しながら,映像表現を学習するための自己教師あり手法を提案する。我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。具体的には、時間的アライメント損失(Soft-DTW)は、埋め込み空間におけるビデオの時間的アライメントの最小コストを目標とする。しかし、この項のみを最適化することは、特にすべてのフレームが埋め込み空間の小さなクラスタにマッピングされるような、自明な解決につながる。この問題を克服するために,組込み空間内の異なる点に異なるフレームをマッピングすることを奨励する時間正規化項(コントラストidm)を提案する。アクションフェーズの分類,アクションフェーズの進行,微粒化フレームの検索など,多種多様なタスクに対する広範囲な評価は,ビデオからの自己教師型表現学習における最先端の手法よりも,ポーリング,ペンアクション,IKEA ASMの3つのデータセットにおいて優れていることを示す。さらに,ラベル付きデータが不足している場合,性能が大幅に向上する。私たちのコードとラベルは、私たちのリサーチウェブサイトで利用可能です。

関連論文リスト

Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文参考訳（メタデータ） (2025-03-26T01:47:42Z)
Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-06T20:32:53Z)
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文参考訳（メタデータ） (2024-03-18T04:30:31Z)
Time Does Tell: Self-Supervised Time-Tuning of Dense Image Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8～10%改善し、画像にマッチさせる。
論文参考訳（メタデータ） (2023-08-22T21:28:58Z)
Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文参考訳（メタデータ） (2023-04-13T22:20:54Z)
Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-06T16:42:22Z)
Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文参考訳（メタデータ） (2022-03-28T17:59:54Z)
Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文参考訳（メタデータ） (2022-03-25T12:13:43Z)
Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2022-02-24T23:51:36Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文参考訳（メタデータ） (2021-03-20T23:30:01Z)
Self-supervised Temporal Discriminative Learning for Video Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文参考訳（メタデータ） (2020-08-05T13:36:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。