論文の概要: Multiscale Video Pretraining for Long-Term Activity Forecasting
- arxiv url: http://arxiv.org/abs/2307.12854v1
- Date: Mon, 24 Jul 2023 14:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:51:24.835398
- Title: Multiscale Video Pretraining for Long-Term Activity Forecasting
- Title(参考訳): 長期活動予測のためのマルチスケールビデオプリトレーニング
- Authors: Reuben Tan, Matthias De Lange, Michael Iuzzolino, Bryan A. Plummer,
Kate Saenko, Karl Ridgeway, Lorenzo Torresani
- Abstract要約: マルチスケールビデオプレトレーニングは、複数の時間スケールで将来のビデオクリップの文脈化された表現を予測することを学ぶことによって、予測のための堅牢な表現を学習する。
MVPは、ビデオ内のアクションは、通常、短い時間スケールでアトミックアクションが起こり、より複雑なアクションがより長い時間スケールで発生する、マルチスケールな性質を持つ、という私たちの観察に基づいています。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
- 参考スコア(独自算出の注目度): 67.06864386274736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term activity forecasting is an especially challenging research problem
because it requires understanding the temporal relationships between observed
actions, as well as the variability and complexity of human activities. Despite
relying on strong supervision via expensive human annotations, state-of-the-art
forecasting approaches often generalize poorly to unseen data. To alleviate
this issue, we propose Multiscale Video Pretraining (MVP), a novel
self-supervised pretraining approach that learns robust representations for
forecasting by learning to predict contextualized representations of future
video clips over multiple timescales. MVP is based on our observation that
actions in videos have a multiscale nature, where atomic actions typically
occur at a short timescale and more complex actions may span longer timescales.
We compare MVP to state-of-the-art self-supervised video learning approaches on
downstream long-term forecasting tasks including long-term action anticipation
and video summary prediction. Our comprehensive experiments across the Ego4D
and Epic-Kitchens-55/100 datasets demonstrate that MVP out-performs
state-of-the-art methods by significant margins. Notably, MVP obtains a
relative performance gain of over 20% accuracy in video summary forecasting
over existing methods.
- Abstract(参考訳): 長期活動予測は、観察された行動間の時間的関係と人間の活動の変動性と複雑さを理解する必要があるため、特に困難な研究課題である。
高価なヒューマンアノテーションによる強い監督に頼らず、最先端の予測アプローチは、しばしば見当たらないデータに対して不十分に一般化する。
この問題を緩和するために,複数時間にわたって将来のビデオクリップの文脈的表現を予測することを学ぶことによって,予測のための堅牢な表現を学習する,新しい自己指導型事前学習手法であるMultiscale Video Pretraining (MVP)を提案する。
mvpは、ビデオ内のアクションがマルチスケール性を持ち、アトミックなアクションは通常短いタイムスケールで起こり、より複雑なアクションはより長いタイムスケールにまたがる可能性がある、という我々の観察に基づいています。
長期行動予測と映像要約予測を含む下流長期予測タスクにおけるmvpと最先端の自己教師付きビデオ学習手法を比較した。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
特に、MVPは、既存の手法による映像要約予測において、20%以上の精度で相対的な性能向上が得られる。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。