論文の概要: Rethinking Learning Approaches for Long-Term Action Anticipation
- arxiv url: http://arxiv.org/abs/2210.11566v1
- Date: Thu, 20 Oct 2022 20:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:58:21.285433
- Title: Rethinking Learning Approaches for Long-Term Action Anticipation
- Title(参考訳): 長期的行動予測のための学習アプローチの再考
- Authors: Megha Nawhal, Akash Abdu Jyothi, Greg Mori
- Abstract要約: アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
- 参考スコア(独自算出の注目度): 32.67768331823358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action anticipation involves predicting future actions having observed the
initial portion of a video. Typically, the observed video is processed as a
whole to obtain a video-level representation of the ongoing activity in the
video, which is then used for future prediction. We introduce ANTICIPATR which
performs long-term action anticipation leveraging segment-level representations
learned using individual segments from different activities, in addition to a
video-level representation. We propose a two-stage learning approach to train a
novel transformer-based model that uses these two types of representations to
directly predict a set of future action instances over any given anticipation
duration. Results on Breakfast, 50Salads, Epic-Kitchens-55, and EGTEA Gaze+
datasets demonstrate the effectiveness of our approach.
- Abstract(参考訳): アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
通常、観察されたビデオは全体として処理され、ビデオ内の進行中の活動をビデオレベルで表現し、将来の予測に使用される。
本稿では、ビデオレベルの表現に加えて、異なるアクティビティから個々のセグメントを用いて学習したセグメントレベルの表現を活用する、長期的なアクション予測を行うアンチCIPATRを紹介する。
本稿では,これらの2種類の表現を用いて,任意の予測期間において,将来のアクションインスタンスのセットを直接予測する,新しいトランスフォーマーモデルを構築するための2段階学習手法を提案する。
Breakfast、50Salads、Epic-Kitchens-55、EGTEA Gaze+データセットの結果は、我々のアプローチの有効性を示している。
関連論文リスト
- On the Efficacy of Text-Based Input Modalities for Action Anticipation [18.92991055344741]
マルチモーダル特徴とテキストキャプションから共同で学習するマルチモーダル予測変換器(MAT)を提案する。
モデルが最初にキャプションに合わせることによってビデオクリップのアクションを予測することを学習し、第2段階では、将来のアクションを予測するためにモデルを微調整する。
論文 参考訳(メタデータ) (2024-01-23T18:58:35Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Future Transformer for Long-term Action Anticipation [33.771374384674836]
我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。
従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。
本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-05-27T14:47:43Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-02T15:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。