論文の概要: Inductive Attention for Video Action Anticipation
- arxiv url: http://arxiv.org/abs/2212.08830v2
- Date: Sat, 18 Mar 2023 04:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:59:27.586589
- Title: Inductive Attention for Video Action Anticipation
- Title(参考訳): 映像行動予測のための誘導的注意
- Authors: Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald
Lanz
- Abstract要約: 我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 16.240254363118016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating future actions based on spatiotemporal observations is essential
in video understanding and predictive computer vision. Moreover, a model
capable of anticipating the future has important applications, it can benefit
precautionary systems to react before an event occurs. However, unlike in the
action recognition task, future information is inaccessible at observation time
-- a model cannot directly map the video frames to the target action to solve
the anticipation task. Instead, the temporal inference is required to associate
the relevant evidence with possible future actions. Consequently, existing
solutions based on the action recognition models are only suboptimal. Recently,
researchers proposed extending the observation window to capture longer
pre-action profiles from past moments and leveraging attention to retrieve the
subtle evidence to improve the anticipation predictions. However, existing
attention designs typically use frame inputs as the query which is suboptimal,
as a video frame only weakly connects to the future action. To this end, we
propose an inductive attention model, dubbed IAM, which leverages the current
prediction priors as the query to infer future action and can efficiently
process the long video content. Furthermore, our method considers the
uncertainty of the future via the many-to-many association in the attention
design. As a result, IAM consistently outperforms the state-of-the-art
anticipation models on multiple large-scale egocentric video datasets while
using significantly fewer model parameters.
- Abstract(参考訳): ビデオ理解と予測コンピュータビジョンにおいて,時空間観測に基づく将来の行動予測が不可欠である。
さらに、未来を予測できるモデルには重要な応用があり、イベントが起こる前に予防システムに反応する利点がある。
しかし、アクション認識タスクとは異なり、将来の情報は観察時にアクセスできない -- モデルが予測タスクを解決するためにビデオフレームをターゲットアクションに直接マップすることはできない。
代わりに、時間的推論は関連する証拠と将来の行動とを関連付けるために必要である。
したがって、アクション認識モデルに基づく既存のソリューションは、サブオプティマイズのみである。
近年の研究者らは、過去の瞬間からより長い事前行動プロファイルを捉えるために観察窓を拡張し、注意を払って微妙な証拠を回収して予測予測を改善することを提案した。
しかし、既存のアテンションデザインでは、ビデオフレームが将来のアクションに弱い接続しかできないため、クエリーとしてフレーム入力を使用するのが一般的である。
そこで本研究では,現在の予測をクエリとして活用し,将来の動作を推定し,長時間映像コンテンツを効率的に処理できるインダクティブ・アテンションモデルであるiamを提案する。
さらに,注意設計における多対多の関連による未来の不確実性についても検討した。
その結果、iamは、複数の大規模エゴセントリックビデオデータセットで最先端の予測モデルよりも一貫して優れており、モデルパラメータは大幅に少ない。
関連論文リスト
- DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - Streaming egocentric action anticipation: An evaluation scheme and
approach [27.391434284586985]
エゴセントリックなアクション予測は、カメラ装着者が過去の観察から将来のアクションを予測することを目的としている。
現在の評価手法は、入力ビデオが観測された直後に予測が利用可能であると仮定している。
本稿では,モデルが現在の入力セグメントを処理した後のみ,オンラインで予測を行うと仮定したストリーミングエゴセントリックな行動評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T04:53:29Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Review of Video Predictive Understanding: Early ActionRecognition and
Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。
様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。
深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文 参考訳(メタデータ) (2021-07-11T22:46:52Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-02T15:41:32Z) - What-If Motion Prediction for Autonomous Driving [58.338520347197765]
生存可能なソリューションは、道路レーンのような静的な幾何学的文脈と、複数のアクターから生じる動的な社会的相互作用の両方を考慮しなければならない。
本稿では,解釈可能な幾何学的(アクター・レーン)と社会的(アクター・アクター)の関係を持つグラフに基づく注意的アプローチを提案する。
提案モデルでは,道路レーンやマルチアクターの相互作用を仮定的に,あるいは「何」かで予測できる。
論文 参考訳(メタデータ) (2020-08-24T17:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。