論文の概要: VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning
- arxiv url: http://arxiv.org/abs/2410.03478v1
- Date: Fri, 4 Oct 2024 14:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:59:46.022302
- Title: VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning
- Title(参考訳): VEDIT:手続き型ビデオ表現学習のための潜在予測アーキテクチャ
- Authors: Han Lin, Tushar Nagarajan, Nicolas Ballas, Mido Assran, Mojtaba Komeili, Mohit Bansal, Koustuv Sinha,
- Abstract要約: そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
- 参考スコア(独自算出の注目度): 59.68917139718813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural video representation learning is an active research area where the objective is to learn an agent which can anticipate and forecast the future given the present video input, typically in conjunction with textual annotations. Prior works often rely on large-scale pretraining of visual encoders and prediction models with language supervision. However, the necessity and effectiveness of extending compute intensive pretraining to learn video clip sequences with noisy text supervision have not yet been fully validated by previous works. In this work, we show that a strong off-the-shelf frozen pretrained visual encoder, along with a well designed prediction model, can achieve state-of-the-art (SoTA) performance in forecasting and procedural planning without the need for pretraining the prediction model, nor requiring additional supervision from language or ASR. Instead of learning representations from pixel space, our method utilizes the latent embedding space of publicly available vision encoders. By conditioning on frozen clip-level embeddings from observed steps to predict the actions of unseen steps, our prediction model is able to learn robust representations for forecasting through iterative denoising - leveraging the recent advances in diffusion transformers (Peebles & Xie, 2023). Empirical studies over a total of five procedural learning tasks across four datasets (NIV, CrossTask, COIN and Ego4D-v2) show that our model advances the strong baselines in long-horizon action anticipation (+2.6% in Verb ED@20, +3.1% in Noun ED@20), and significantly improves the SoTA in step forecasting (+5.0%), task classification (+3.8%), and procedure planning tasks (up to +2.28% in success rate, +3.39% in mAcc, and +0.90% in mIoU).
- Abstract(参考訳): 手続き型ビデオ表現学習(Procedural video representation learning)は、現在入力されている映像をテキストアノテーションとともに予測し、予測できるエージェントを学習することを目的とした活発な研究分野である。
先行研究は、しばしば言語監督を伴う視覚エンコーダや予測モデルの大規模事前学習に依存している。
しかし、ノイズの多いテキスト管理を伴うビデオクリップシーケンスを学習するために、計算集中事前学習を拡張する必要性と効果は、これまでの研究でまだ十分に検証されていない。
本研究では,厳密な既成の凍結型視覚エンコーダとよく設計された予測モデルを用いて,予測モデルの事前訓練や言語やASRからの追加の監督を必要とせず,予測および手続き計画における最先端(SoTA)のパフォーマンスを実現できることを示す。
画素空間から表現を学習する代わりに,一般に公開されている視覚エンコーダの埋め込み空間を利用する。
観察されたステップから凍結したクリップレベルの埋め込みを条件付け、未確認ステップの動作を予測することによって、我々の予測モデルは、反復的復調により予測のための堅牢な表現を学習することができる。
4つのデータセット(NIV, CrossTask, COIN, Ego4D-v2)にまたがる5つの手続き的学習タスク(NIV, CrossTask, COIN, Ego4D-v2)に関する実証的研究は、我々のモデルが長方形の行動予測において強いベースライン(+2.6%、Noun ED@20では+3.1%)を前進させ、ステップ予測(+5.0%)、タスク分類(+3.8%)、手順計画タスク(+2.28%、mAccでは+3.39%、mIoUでは+0.90%)においてSoTAを大幅に改善していることを示している。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Multiscale Video Pretraining for Long-Term Activity Forecasting [67.06864386274736]
マルチスケールビデオプレトレーニングは、複数の時間スケールで将来のビデオクリップの文脈化された表現を予測することを学ぶことによって、予測のための堅牢な表現を学習する。
MVPは、ビデオ内のアクションは、通常、短い時間スケールでアトミックアクションが起こり、より複雑なアクションがより長い時間スケールで発生する、マルチスケールな性質を持つ、という私たちの観察に基づいています。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
論文 参考訳(メタデータ) (2023-07-24T14:55:15Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Distilling Knowledge from Language Models for Video-based Action
Anticipation [31.59130630384036]
ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
論文 参考訳(メタデータ) (2022-10-12T08:02:11Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。