論文の概要: TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation
- arxiv url: http://arxiv.org/abs/2003.03530v1
- Date: Sat, 7 Mar 2020 07:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:48:17.495879
- Title: TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation
- Title(参考訳): TTPP:効率的な行動予測のための進行予測付き時間変換器
- Authors: Wen Wang, Xiaojiang Peng, Yanzhou Su, Yu Qiao, Jian Cheng
- Abstract要約: ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
- 参考スコア(独自算出の注目度): 46.28067541184604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action anticipation aims to predict future action categories from
observed frames. Current state-of-the-art approaches mainly resort to recurrent
neural networks to encode history information into hidden states, and predict
future actions from the hidden representations. It is well known that the
recurrent pipeline is inefficient in capturing long-term information which may
limit its performance in predication task. To address this problem, this paper
proposes a simple yet efficient Temporal Transformer with Progressive
Prediction (TTPP) framework, which repurposes a Transformer-style architecture
to aggregate observed features, and then leverages a light-weight network to
progressively predict future features and actions. Specifically, predicted
features along with predicted probabilities are accumulated into the inputs of
subsequent prediction. We evaluate our approach on three action datasets,
namely TVSeries, THUMOS-14, and TV-Human-Interaction. Additionally we also
conduct a comprehensive study for several popular aggregation and prediction
strategies. Extensive results show that TTPP not only outperforms the
state-of-the-art methods but also more efficient.
- Abstract(参考訳): ビデオアクション予測は、観測されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは、主にリカレントニューラルネットワークを使用して、履歴情報を隠された状態にエンコードし、隠された表現から将来のアクションを予測する。
リカレントパイプラインは、述語処理における性能を制限する長期的な情報を取り込むのに非効率であることはよく知られている。
そこで本研究では,TTPP(Progressive Prediction)フレームワークを用いた簡易かつ効率的なテンポラルトランスフォーマーを提案する。このフレームワークは,Transformerスタイルのアーキテクチャを用いて観測された特徴を集約し,軽量ネットワークを利用して将来的な特徴や動作を段階的に予測する。
具体的には、予測される特徴と予測される確率を、その後の予測の入力に蓄積する。
本研究は,TVSeries,THUMOS-14,TV-Human-Interactionの3つのアクションデータセットに対するアプローチを評価する。
さらに,いくつかの一般的な集計戦略や予測戦略についても総合的な研究を行っている。
その結果,TTPPは最先端の手法よりも効率が高いことがわかった。
関連論文リスト
- Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Event-based Vision for Early Prediction of Manipulation Actions [0.7699714865575189]
ニューロモルフィック視覚センサー(Neuromorphic visual sensor)は、シーンの明るさが変化したときの事象の出力をシーケンスする人工網膜である。
本研究では,微粒な操作動作に関するイベントベースデータセットを提案する。
また,事象を伴う行動予測にトランスフォーマーを用いることについて実験的に検討した。
論文 参考訳(メタデータ) (2023-07-26T17:50:17Z) - Streaming egocentric action anticipation: An evaluation scheme and
approach [27.391434284586985]
エゴセントリックなアクション予測は、カメラ装着者が過去の観察から将来のアクションを予測することを目的としている。
現在の評価手法は、入力ビデオが観測された直後に予測が利用可能であると仮定している。
本稿では,モデルが現在の入力セグメントを処理した後のみ,オンラインで予測を行うと仮定したストリーミングエゴセントリックな行動評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T04:53:29Z) - Finding Islands of Predictability in Action Forecasting [7.215559809521136]
将来のアクションシーケンスは1つの抽象化レベルではなく、変数でより正確にモデル化されていることを示す。
本稿では,ベイズニューラルネットワークと階層的畳み込みセグメンテーションモデルを組み合わせて,将来の行動を正確に予測し,抽象化レベルを最適に選択する手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:01:16Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Adversarial Refinement Network for Human Motion Prediction [61.50462663314644]
リカレントニューラルネットワークとフィードフォワードディープネットワークという2つの一般的な手法は、粗い動きの傾向を予測することができる。
本稿では,新たな逆誤差増大を伴う簡易かつ効果的な粗大きめ機構に従えば,ARNet(Adversarial Refinement Network)を提案する。
論文 参考訳(メタデータ) (2020-11-23T05:42:20Z) - LAP-Net: Adaptive Features Sampling via Learning Action Progression for
Online Action Detection [13.205827952845201]
アクション検出は、サイド情報や将来のフレームへのアクセスなしに、ストリーミングビデオから進行中のアクションを識別するタスクである。
補足的特徴として、目に見えないが期待される将来のフレームの固定時間範囲を集約する手法が提案されている。
最適な補足的特徴の変動範囲を克服する適応的特徴サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2020-11-16T13:08:47Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。