論文の概要: Aligning Videos in Space and Time
- arxiv url: http://arxiv.org/abs/2007.04515v1
- Date: Thu, 9 Jul 2020 02:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:35:26.948602
- Title: Aligning Videos in Space and Time
- Title(参考訳): 空間と時間におけるビデオのアライメント
- Authors: Senthil Purushwalkam, Tian Ye, Saurabh Gupta, Abhinav Gupta
- Abstract要約: 本稿では,時間と空間の対応をクロスビデオ・サイクル整合性により学習する新しいアライメント手法を提案する。
The Penn Action and Pouring datasets we demonstrated that the proposed method can successfully learn to correspondally similar patch across video。
- 参考スコア(独自算出の注目度): 36.77248894563779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the task of extracting visual correspondences
across videos. Given a query video clip from an action class, we aim to align
it with training videos in space and time. Obtaining training data for such a
fine-grained alignment task is challenging and often ambiguous. Hence, we
propose a novel alignment procedure that learns such correspondence in space
and time via cross video cycle-consistency. During training, given a pair of
videos, we compute cycles that connect patches in a given frame in the first
video by matching through frames in the second video. Cycles that connect
overlapping patches together are encouraged to score higher than cycles that
connect non-overlapping patches. Our experiments on the Penn Action and Pouring
datasets demonstrate that the proposed method can successfully learn to
correspond semantically similar patches across videos, and learns
representations that are sensitive to object and action states.
- Abstract(参考訳): 本稿では,ビデオ間の視覚的対応を抽出する作業に焦点を当てる。
アクションクラスからのクェリビデオクリップが与えられた場合、スペースと時間のトレーニングビデオに合わせることを目的としている。
このようなきめ細かい調整作業のためのトレーニングデータを取得することは難しく、しばしば曖昧です。
そこで我々は,クロスビデオ・サイクル整合性により,空間と時間でそのような対応を学習する新しいアライメント手法を提案する。
トレーニング中、一対のビデオが与えられると、最初のビデオの所定のフレームのパッチを第2のビデオのフレームでマッチングして接続するサイクルを計算します。
重なり合うパッチを繋ぐサイクルは、重複しないパッチを繋ぐサイクルよりも高いスコアを得られる。
Penn Action and Pouring データセットに関する実験により,提案手法はビデオ間で意味論的に類似したパッチに対応し,対象状態や行動状態に敏感な表現を学習できることを示した。
関連論文リスト
- VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。