論文の概要: TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation
- arxiv url: http://arxiv.org/abs/2003.03530v1
- Date: Sat, 7 Mar 2020 07:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:48:17.495879
- Title: TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation
- Title(参考訳): TTPP:効率的な行動予測のための進行予測付き時間変換器
- Authors: Wen Wang, Xiaojiang Peng, Yanzhou Su, Yu Qiao, Jian Cheng
- Abstract要約: ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
- 参考スコア(独自算出の注目度): 46.28067541184604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action anticipation aims to predict future action categories from
observed frames. Current state-of-the-art approaches mainly resort to recurrent
neural networks to encode history information into hidden states, and predict
future actions from the hidden representations. It is well known that the
recurrent pipeline is inefficient in capturing long-term information which may
limit its performance in predication task. To address this problem, this paper
proposes a simple yet efficient Temporal Transformer with Progressive
Prediction (TTPP) framework, which repurposes a Transformer-style architecture
to aggregate observed features, and then leverages a light-weight network to
progressively predict future features and actions. Specifically, predicted
features along with predicted probabilities are accumulated into the inputs of
subsequent prediction. We evaluate our approach on three action datasets,
namely TVSeries, THUMOS-14, and TV-Human-Interaction. Additionally we also
conduct a comprehensive study for several popular aggregation and prediction
strategies. Extensive results show that TTPP not only outperforms the
state-of-the-art methods but also more efficient.
- Abstract(参考訳): ビデオアクション予測は、観測されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは、主にリカレントニューラルネットワークを使用して、履歴情報を隠された状態にエンコードし、隠された表現から将来のアクションを予測する。
リカレントパイプラインは、述語処理における性能を制限する長期的な情報を取り込むのに非効率であることはよく知られている。
そこで本研究では,TTPP(Progressive Prediction)フレームワークを用いた簡易かつ効率的なテンポラルトランスフォーマーを提案する。このフレームワークは,Transformerスタイルのアーキテクチャを用いて観測された特徴を集約し,軽量ネットワークを利用して将来的な特徴や動作を段階的に予測する。
具体的には、予測される特徴と予測される確率を、その後の予測の入力に蓄積する。
本研究は,TVSeries,THUMOS-14,TV-Human-Interactionの3つのアクションデータセットに対するアプローチを評価する。
さらに,いくつかの一般的な集計戦略や予測戦略についても総合的な研究を行っている。
その結果,TTPPは最先端の手法よりも効率が高いことがわかった。
関連論文リスト
- DeTPP: Leveraging Object Detection for Robust Long-Horizon Event Prediction [1.534667887016089]
本稿では,コンピュータビジョンからオブジェクト検出技術に触発された新しいアプローチであるDeTPPを紹介する。
DeTPPはユニークなマッチングベースの損失関数を採用し、確実に予測可能なイベントを選択的に優先順位付けする。
提案したハイブリッドアプローチは、大規模トランザクションデータセット上での次のイベント予測の精度を最大2.7%向上させる。
論文 参考訳(メタデータ) (2024-08-23T14:57:46Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention [76.37139809114274]
HPNetは、新しい動的軌道予測手法である。
逐次予測間の動的関係を自動的に符号化する履歴予測アテンションモジュールを提案する。
私たちのコードはhttps://github.com/XiaolongTang23/HPNetで利用可能です。
論文 参考訳(メタデータ) (2024-04-09T14:42:31Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Event-based Vision for Early Prediction of Manipulation Actions [0.7699714865575189]
ニューロモルフィック視覚センサー(Neuromorphic visual sensor)は、シーンの明るさが変化したときの事象の出力をシーケンスする人工網膜である。
本研究では,微粒な操作動作に関するイベントベースデータセットを提案する。
また,事象を伴う行動予測にトランスフォーマーを用いることについて実験的に検討した。
論文 参考訳(メタデータ) (2023-07-26T17:50:17Z) - Streaming egocentric action anticipation: An evaluation scheme and
approach [27.391434284586985]
エゴセントリックなアクション予測は、カメラ装着者が過去の観察から将来のアクションを予測することを目的としている。
現在の評価手法は、入力ビデオが観測された直後に予測が利用可能であると仮定している。
本稿では,モデルが現在の入力セグメントを処理した後のみ,オンラインで予測を行うと仮定したストリーミングエゴセントリックな行動評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T04:53:29Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Adversarial Refinement Network for Human Motion Prediction [61.50462663314644]
リカレントニューラルネットワークとフィードフォワードディープネットワークという2つの一般的な手法は、粗い動きの傾向を予測することができる。
本稿では,新たな逆誤差増大を伴う簡易かつ効果的な粗大きめ機構に従えば,ARNet(Adversarial Refinement Network)を提案する。
論文 参考訳(メタデータ) (2020-11-23T05:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。