論文の概要: Inductive Attention for Video Action Anticipation
- arxiv url: http://arxiv.org/abs/2212.08830v2
- Date: Sat, 18 Mar 2023 04:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:59:27.586589
- Title: Inductive Attention for Video Action Anticipation
- Title(参考訳): 映像行動予測のための誘導的注意
- Authors: Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald
Lanz
- Abstract要約: 我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 16.240254363118016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating future actions based on spatiotemporal observations is essential
in video understanding and predictive computer vision. Moreover, a model
capable of anticipating the future has important applications, it can benefit
precautionary systems to react before an event occurs. However, unlike in the
action recognition task, future information is inaccessible at observation time
-- a model cannot directly map the video frames to the target action to solve
the anticipation task. Instead, the temporal inference is required to associate
the relevant evidence with possible future actions. Consequently, existing
solutions based on the action recognition models are only suboptimal. Recently,
researchers proposed extending the observation window to capture longer
pre-action profiles from past moments and leveraging attention to retrieve the
subtle evidence to improve the anticipation predictions. However, existing
attention designs typically use frame inputs as the query which is suboptimal,
as a video frame only weakly connects to the future action. To this end, we
propose an inductive attention model, dubbed IAM, which leverages the current
prediction priors as the query to infer future action and can efficiently
process the long video content. Furthermore, our method considers the
uncertainty of the future via the many-to-many association in the attention
design. As a result, IAM consistently outperforms the state-of-the-art
anticipation models on multiple large-scale egocentric video datasets while
using significantly fewer model parameters.
- Abstract(参考訳): ビデオ理解と予測コンピュータビジョンにおいて,時空間観測に基づく将来の行動予測が不可欠である。
さらに、未来を予測できるモデルには重要な応用があり、イベントが起こる前に予防システムに反応する利点がある。
しかし、アクション認識タスクとは異なり、将来の情報は観察時にアクセスできない -- モデルが予測タスクを解決するためにビデオフレームをターゲットアクションに直接マップすることはできない。
代わりに、時間的推論は関連する証拠と将来の行動とを関連付けるために必要である。
したがって、アクション認識モデルに基づく既存のソリューションは、サブオプティマイズのみである。
近年の研究者らは、過去の瞬間からより長い事前行動プロファイルを捉えるために観察窓を拡張し、注意を払って微妙な証拠を回収して予測予測を改善することを提案した。
しかし、既存のアテンションデザインでは、ビデオフレームが将来のアクションに弱い接続しかできないため、クエリーとしてフレーム入力を使用するのが一般的である。
そこで本研究では,現在の予測をクエリとして活用し,将来の動作を推定し,長時間映像コンテンツを効率的に処理できるインダクティブ・アテンションモデルであるiamを提案する。
さらに,注意設計における多対多の関連による未来の不確実性についても検討した。
その結果、iamは、複数の大規模エゴセントリックビデオデータセットで最先端の予測モデルよりも一貫して優れており、モデルパラメータは大幅に少ない。
関連論文リスト
- From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Review of Video Predictive Understanding: Early ActionRecognition and
Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。
様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。
深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文 参考訳(メタデータ) (2021-07-11T22:46:52Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-02T15:41:32Z) - What-If Motion Prediction for Autonomous Driving [58.338520347197765]
生存可能なソリューションは、道路レーンのような静的な幾何学的文脈と、複数のアクターから生じる動的な社会的相互作用の両方を考慮しなければならない。
本稿では,解釈可能な幾何学的(アクター・レーン)と社会的(アクター・アクター)の関係を持つグラフに基づく注意的アプローチを提案する。
提案モデルでは,道路レーンやマルチアクターの相互作用を仮定的に,あるいは「何」かで予測できる。
論文 参考訳(メタデータ) (2020-08-24T17:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。