論文の概要: Learning to Align Sequential Actions in the Wild
- arxiv url: http://arxiv.org/abs/2111.09301v1
- Date: Wed, 17 Nov 2021 18:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 13:44:52.609846
- Title: Learning to Align Sequential Actions in the Wild
- Title(参考訳): 野生での逐次行動の調整を学ぶ
- Authors: Weizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua,
Marc Pollefeys
- Abstract要約: 本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
- 参考スコア(独自算出の注目度): 123.62879270881807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art methods for self-supervised sequential action alignment rely
on deep networks that find correspondences across videos in time. They either
learn frame-to-frame mapping across sequences, which does not leverage temporal
information, or assume monotonic alignment between each video pair, which
ignores variations in the order of actions. As such, these methods are not able
to deal with common real-world scenarios that involve background frames or
videos that contain non-monotonic sequence of actions.
In this paper, we propose an approach to align sequential actions in the wild
that involve diverse temporal variations. To this end, we propose an approach
to enforce temporal priors on the optimal transport matrix, which leverages
temporal consistency, while allowing for variations in the order of actions.
Our model accounts for both monotonic and non-monotonic sequences and handles
background frames that should not be aligned. We demonstrate that our approach
consistently outperforms the state-of-the-art in self-supervised sequential
action representation learning on four different benchmark datasets.
- Abstract(参考訳): 自己教師付きシーケンシャルなアクションアライメントのための最先端の手法は、時間内にビデオ間で対応関係を見つけるディープネットワークに依存している。
彼らは、時間的情報を利用しないシーケンス間のフレーム間マッピングを学ぶか、アクションの順序のバリエーションを無視した各ビデオペア間のモノトニックアライメントを仮定する。
したがって、これらのメソッドは、非単調なアクションシーケンスを含む背景フレームやビデオを含む、一般的な現実世界のシナリオに対応できない。
本稿では,多様な時間的変動を伴う野生における逐次行動の調整手法を提案する。
そこで本研究では,行動の順序の変動を許容しながら,時間的一貫性を生かした最適輸送行列の時間的優先順位を強制する手法を提案する。
我々のモデルは単調なシーケンスと非単調なシーケンスの両方を考慮し、整列すべきでないバックグラウンドフレームを処理する。
4つのベンチマークデータセット上での自己教師付きシーケンシャルなアクション表現学習において,我々のアプローチが最先端を一貫して上回っていることを実証する。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Made to Order: Discovering monotonic temporal changes via self-supervised video ordering [89.0660110757949]
我々は、シャッフルされた画像シーケンスをオーバシリ信号として処理する簡単なプロキシタスクを利用する。
本稿では,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T17:59:56Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - SCT: Set Constrained Temporal Transformer for Set Supervised Action
Segmentation [22.887397951846353]
弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。
このようなデータに基づいてエンドツーエンドにトレーニング可能なアプローチを提案する。
提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-03-31T14:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。