論文の概要: Unified Recurrence Modeling for Video Action Anticipation
- arxiv url: http://arxiv.org/abs/2206.01009v1
- Date: Thu, 2 Jun 2022 12:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:35:22.618106
- Title: Unified Recurrence Modeling for Video Action Anticipation
- Title(参考訳): 映像行動予測のための統一再帰モデル
- Authors: Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald
Lanz
- Abstract要約: 本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
- 参考スコア(独自算出の注目度): 16.240254363118016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forecasting future events based on evidence of current conditions is an
innate skill of human beings, and key for predicting the outcome of any
decision making. In artificial vision for example, we would like to predict the
next human action before it happens, without observing the future video frames
associated to it. Computer vision models for action anticipation are expected
to collect the subtle evidence in the preamble of the target actions. In prior
studies recurrence modeling often leads to better performance, the strong
temporal inference is assumed to be a key element for reasonable prediction. To
this end, we propose a unified recurrence modeling for video action
anticipation via message passing framework. The information flow in space-time
can be described by the interaction between vertices and edges, and the changes
of vertices for each incoming frame reflects the underlying dynamics. Our model
leverages self-attention as the building blocks for each of the message passing
functions. In addition, we introduce different edge learning strategies that
can be end-to-end optimized to gain better flexibility for the connectivity
between vertices. Our experimental results demonstrate that our proposed method
outperforms previous works on the large-scale EPIC-Kitchen dataset.
- Abstract(参考訳): 現在の状況の証拠に基づく将来の出来事を予測することは、人間の本質的なスキルであり、あらゆる意思決定の結果を予測する鍵である。
例えば、人工視覚では、それに関連する将来のビデオフレームを観察することなく、それが起こる前に次の人間の行動を予測したい。
行動予測のためのコンピュータビジョンモデルは、標的行動の前兆の微妙な証拠を収集することが期待される。
先行研究において、繰り返しモデリングは、しばしばより良いパフォーマンスをもたらすが、強い時間的推論は合理的な予測の鍵となる要素であると仮定される。
そこで本研究では,メッセージパッシングフレームワークによる映像行動予測のための統一的再帰モデルを提案する。
時空における情報の流れは頂点とエッジの相互作用によって記述することができ、各入射フレームの頂点の変化は基礎となるダイナミクスを反映している。
我々のモデルはメッセージパッシング関数のビルディングブロックとして自己注意を利用する。
さらに,頂点間の接続性を改善するために,エンドツーエンドで最適化可能なさまざまなエッジ学習戦略を導入する。
実験結果から,提案手法はEPIC-Kitchenデータセットの大規模化に優れていた。
関連論文リスト
- E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Finding Islands of Predictability in Action Forecasting [7.215559809521136]
将来のアクションシーケンスは1つの抽象化レベルではなく、変数でより正確にモデル化されていることを示す。
本稿では,ベイズニューラルネットワークと階層的畳み込みセグメンテーションモデルを組み合わせて,将来の行動を正確に予測し,抽象化レベルを最適に選択する手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:01:16Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - RAIN: Reinforced Hybrid Attention Inference Network for Motion
Forecasting [34.54878390622877]
本稿では,ハイブリットアテンション機構に基づく動的キー情報の選択とランク付けを行う汎用的な動き予測フレームワークを提案する。
このフレームワークは、マルチエージェント軌道予測と人間の動き予測タスクを処理するためにインスタンス化される。
我々は,異なる領域における合成シミュレーションと運動予測ベンチマークの両方について,その枠組みを検証した。
論文 参考訳(メタデータ) (2021-08-03T06:30:30Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。