論文の概要: Inductive Attention for Video Action Anticipation
- arxiv url: http://arxiv.org/abs/2212.08830v1
- Date: Sat, 17 Dec 2022 09:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:13:06.751312
- Title: Inductive Attention for Video Action Anticipation
- Title(参考訳): 映像行動予測のための誘導的注意
- Authors: Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald
Lanz
- Abstract要約: 映像観察に基づく今後の行動予測は,映像理解において重要な課題である。
アクション予測における入力はプレアクションフレームのみであるため、モデルはターゲットアクションに関する十分な情報を持っていない。
本稿では,予測結果を導出するクエリとして事前予測を透過的に利用する帰納的注意モデルを提案する。
- 参考スコア(独自算出の注目度): 16.240254363118016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating future actions based on video observations is an important task
in video understanding, which would be useful for some precautionary systems
that require response time to react before an event occurs. Since the input in
action anticipation is only pre-action frames, models do not have enough
information about the target action; moreover, similar pre-action frames may
lead to different futures. Consequently, any solution using existing action
recognition models can only be suboptimal. Recently, researchers have proposed
using a longer video context to remedy the insufficient information in
pre-action intervals, as well as the self-attention to query past relevant
moments to address the anticipation problem. However, the indirect use of video
input features as the query might be inefficient, as it only serves as the
proxy to the anticipation goal. To this end, we propose an inductive attention
model, which transparently uses prior prediction as the query to derive the
anticipation result by induction from past experience. Our method naturally
considers the uncertainty of multiple futures via the many-to-many association.
On the large-scale egocentric video datasets, our model not only shows
consistently better performance than state of the art using the same backbone,
and is competitive to the methods that employ a stronger backbone, but also
superior efficiency in less model parameters.
- Abstract(参考訳): ビデオ観察に基づく将来の行動を予測することは、ビデオ理解において重要な課題であり、イベントが起こる前に応答時間を必要とする予防システムにおいて有用である。
入力された動作予測は前アクションフレームのみであるため、モデルにはターゲットアクションに関する情報が不十分である。
したがって、既存のアクション認識モデルを使用するソリューションは、サブオプティマイズしかできない。
近年,より長いビデオ・コンテクストを用いて,事前行動間隔で不十分な情報を補うことや,予測問題に対処するために関連した瞬間を検索する自己注意が提案されている。
しかしながら、クエリとしての間接的なビデオ入力機能は、予測目標へのプロキシとしてのみ機能するため、非効率である可能性がある。
そこで本研究では,過去の経験から予測結果を導出するためのクエリとして,事前予測を透過的に利用する誘導型注意モデルを提案する。
本手法は,多対多関係による複数未来の不確かさを自然に考慮する。
大規模エゴセントリックビデオデータセットでは,同じバックボーンを用いた最先端技術よりも一貫して優れた性能を示すだけでなく,より強力なバックボーンを用いる方法と競合するだけでなく,少ないモデルパラメータで優れた効率を示す。
関連論文リスト
- DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - Streaming egocentric action anticipation: An evaluation scheme and
approach [27.391434284586985]
エゴセントリックなアクション予測は、カメラ装着者が過去の観察から将来のアクションを予測することを目的としている。
現在の評価手法は、入力ビデオが観測された直後に予測が利用可能であると仮定している。
本稿では,モデルが現在の入力セグメントを処理した後のみ,オンラインで予測を行うと仮定したストリーミングエゴセントリックな行動評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T04:53:29Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Review of Video Predictive Understanding: Early ActionRecognition and
Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。
様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。
深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文 参考訳(メタデータ) (2021-07-11T22:46:52Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-02T15:41:32Z) - What-If Motion Prediction for Autonomous Driving [58.338520347197765]
生存可能なソリューションは、道路レーンのような静的な幾何学的文脈と、複数のアクターから生じる動的な社会的相互作用の両方を考慮しなければならない。
本稿では,解釈可能な幾何学的(アクター・レーン)と社会的(アクター・アクター)の関係を持つグラフに基づく注意的アプローチを提案する。
提案モデルでは,道路レーンやマルチアクターの相互作用を仮定的に,あるいは「何」かで予測できる。
論文 参考訳(メタデータ) (2020-08-24T17:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。