論文の概要: Weakly-supervised Representation Learning for Video Alignment and
Analysis
- arxiv url: http://arxiv.org/abs/2302.04064v1
- Date: Wed, 8 Feb 2023 14:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:21:51.583926
- Title: Weakly-supervised Representation Learning for Video Alignment and
Analysis
- Title(参考訳): 映像アライメントと分析のための弱教師付き表現学習
- Authors: Guy Bar-Shalom, George Leifman, Michael Elad, Ehud Rivlin
- Abstract要約: 本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
- 参考スコア(独自算出の注目度): 16.80278496414627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many tasks in video analysis and understanding boil down to the need for
frame-based feature learning, aiming to encapsulate the relevant visual content
so as to enable simpler and easier subsequent processing. While supervised
strategies for this learning task can be envisioned, self and weakly-supervised
alternatives are preferred due to the difficulties in getting labeled data.
This paper introduces LRProp -- a novel weakly-supervised representation
learning approach, with an emphasis on the application of temporal alignment
between pairs of videos of the same action category. The proposed approach uses
a transformer encoder for extracting frame-level features, and employs the DTW
algorithm within the training iterations in order to identify the alignment
path between video pairs. Through a process referred to as ``pair-wise position
propagation'', the probability distributions of these correspondences per
location are matched with the similarity of the frame-level features via
KL-divergence minimization. The proposed algorithm uses also a regularized
SoftDTW loss for better tuning the learned features. Our novel representation
learning paradigm consistently outperforms the state of the art on temporal
alignment tasks, establishing a new performance bar over several downstream
video analysis applications.
- Abstract(参考訳): ビデオ分析や理解における多くのタスクは、フレームベースの特徴学習の必要性に起因し、より簡単で簡単な処理を可能にするために、関連する視覚コンテンツをカプセル化することを目的としている。
この学習課題の教師付き戦略は想定できるが、ラベル付きデータの取得が困難であるため、自己および弱教師付き代替案が好ましい。
本稿では,同一アクションカテゴリの映像ペア間の時間的アライメントの適用に重点を置いた,新しい弱教師付き表現学習手法であるlrpropを提案する。
提案手法では,フレームレベルの特徴を抽出するためにトランスフォーマーエンコーダを使用し,ビデオペア間のアライメントパスを特定するために,トレーニングイテレーション内にDTWアルゴリズムを用いる。
適切な位置伝播」と呼ばれるプロセスを通して、これらの対応の確率分布は、KL分割最小化によるフレームレベルの特徴の類似性と一致する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回り、複数の下流ビデオ解析アプリケーションに対して新しいパフォーマンスバーを確立する。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - Learning Dynamic Alignment via Meta-filter for Few-shot Learning [94.41887992982986]
少ないショット学習は、学習知識を極めて限定的な(サポート)例で適応させることで、新しいクラスを認識することを目的としている。
異なるローカルサポート情報に従って、クエリ領域とチャネルの両方を効果的に強調表示できる動的アライメントを学びます。
結果として得られたフレームワークは、主要な数発の視覚認識ベンチマークに最新技術を確立します。
論文 参考訳(メタデータ) (2021-03-25T03:29:33Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。