論文の概要: Video Prediction Recalling Long-term Motion Context via Memory Alignment
Learning
- arxiv url: http://arxiv.org/abs/2104.00924v1
- Date: Fri, 2 Apr 2021 08:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:49:26.663410
- Title: Video Prediction Recalling Long-term Motion Context via Memory Alignment
Learning
- Title(参考訳): メモリアライメント学習による長期動作コンテキストのリコール映像予測
- Authors: Sangmin Lee, Hak Gu Kim, Dae Hwi Choi, Hyung-Il Kim, Yong Man Ro
- Abstract要約: 入力された動作が属する長期的な動作コンテキストをキャプチャする必要がある。
ボトルネックとは、動的に制限された入力シーケンスに自然に一致する長期動作コンテキストを予測する方法である。
メモリアライメント学習による長期動作コンテキストメモリ(LMC-Memory)の導入。
提案手法は他の高度なrnnベースの手法、特に長期的条件よりも優れている。
- 参考スコア(独自算出の注目度): 41.6997057841646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our work addresses long-term motion context issues for predicting future
frames. To predict the future precisely, it is required to capture which
long-term motion context (e.g., walking or running) the input motion (e.g., leg
movement) belongs to. The bottlenecks arising when dealing with the long-term
motion context are: (i) how to predict the long-term motion context naturally
matching input sequences with limited dynamics, (ii) how to predict the
long-term motion context with high-dimensionality (e.g., complex motion). To
address the issues, we propose novel motion context-aware video prediction. To
solve the bottleneck (i), we introduce a long-term motion context memory
(LMC-Memory) with memory alignment learning. The proposed memory alignment
learning enables to store long-term motion contexts into the memory and to
match them with sequences including limited dynamics. As a result, the
long-term context can be recalled from the limited input sequence. In addition,
to resolve the bottleneck (ii), we propose memory query decomposition to store
local motion context (i.e., low-dimensional dynamics) and recall the suitable
local context for each local part of the input individually. It enables to
boost the alignment effects of the memory. Experimental results show that the
proposed method outperforms other sophisticated RNN-based methods, especially
in long-term condition. Further, we validate the effectiveness of the proposed
network designs by conducting ablation studies and memory feature analysis. The
source code of this work is available.
- Abstract(参考訳): 我々の研究は、将来のフレームを予測するための長期的な動きコンテキストの問題に対処する。
未来を正確に予測するには、入力動作(例えば、脚の動き)がどの長期的動作コンテキスト(例えば、歩行や走行)に属するかを把握する必要がある。
長期動作コンテキストを扱う際に生じるボトルネックは次のとおりである: (i) 入力シーケンスと限られたダイナミクスと自然に一致する長期動作コンテキストの予測方法 (ii) 高次元(例えば複雑な動き)による長期動作コンテキストの予測方法。
この問題に対処するため,我々は新しい動き文脈対応ビデオ予測法を提案する。
ボトルネック(i)を解決するために,メモリアライメント学習を伴う長期動作コンテキストメモリ(LMC-Memory)を導入する。
提案したメモリアライメント学習により、長期動作コンテキストをメモリに格納し、限られたダイナミクスを含むシーケンスとマッチングすることができる。
その結果、限られた入力シーケンスから長期的なコンテキストを思い出すことができる。
さらに,ボトルネック(II)を解決するため,局所的な動作コンテキスト(低次元ダイナミクス)を記憶するためのメモリクエリ分解を提案し,入力の各ローカル部分に適したローカルコンテキストを個別に記憶する。
これにより、メモリのアライメント効果を高めることができる。
実験の結果,提案手法は,特に長期的条件下で,他の高度なrnn法よりも優れていることがわかった。
さらに,Ablation研究とメモリ特徴解析を行うことにより,提案するネットワーク設計の有効性を検証する。
この作業のソースコードは公開されている。
関連論文リスト
- Lagrangian Motion Fields for Long-term Motion Generation [32.548139921363756]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Temporal Performance Prediction for Deep Convolutional Long Short-Term
Memory Networks [0.0]
本稿では,畳み込み型長期記憶ネットワークの予測性能を推定する時間後処理手法を提案する。
この目的のために,セグメントごとの時間セル状態に基づく入力メトリクスを作成し,予測品質を推定するための異なるモデルについて検討する。
論文 参考訳(メタデータ) (2023-11-13T17:11:35Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。