論文の概要: Learning to Anticipate Egocentric Actions by Imagination
- arxiv url: http://arxiv.org/abs/2101.04924v2
- Date: Tue, 19 Jan 2021 11:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:58:04.293915
- Title: Learning to Anticipate Egocentric Actions by Imagination
- Title(参考訳): イマジネーションによる自我中心行動の予測
- Authors: Yu Wu, Linchao Zhu, Xiaohan Wang, Yi Yang, Fei Wu
- Abstract要約: 我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
- 参考スコア(独自算出の注目度): 60.21323541219304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating actions before they are executed is crucial for a wide range of
practical applications, including autonomous driving and robotics. In this
paper, we study the egocentric action anticipation task, which predicts future
action seconds before it is performed for egocentric videos. Previous
approaches focus on summarizing the observed content and directly predicting
future action based on past observations. We believe it would benefit the
action anticipation if we could mine some cues to compensate for the missing
information of the unobserved frames. We then propose to decompose the action
anticipation into a series of future feature predictions. We imagine how the
visual feature changes in the near future and then predicts future action
labels based on these imagined representations. Differently, our ImagineRNN is
optimized in a contrastive learning way instead of feature regression. We
utilize a proxy task to train the ImagineRNN, i.e., selecting the correct
future states from distractors. We further improve ImagineRNN by residual
anticipation, i.e., changing its target to predicting the feature difference of
adjacent frames instead of the frame content. This promotes the network to
focus on our target, i.e., the future action, as the difference between
adjacent frame features is more important for forecasting the future. Extensive
experiments on two large-scale egocentric action datasets validate the
effectiveness of our method. Our method significantly outperforms previous
methods on both the seen test set and the unseen test set of the EPIC Kitchens
Action Anticipation Challenge.
- Abstract(参考訳): 実行前に行動を予測することは、自動運転やロボティクスなど、幅広い実用的な応用に不可欠である。
本稿では,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオに先立ち,将来的なアクション秒を予測する。
従来のアプローチでは、観測内容の要約と、過去の観測に基づいて将来の行動を直接予測することに集中していた。
監視されていないフレームの欠落情報を補うためにいくつかの手がかりを発掘できれば、アクション予測に利益があると信じています。
次に,行動予測を将来の特徴予測に分解することを提案する。
視覚的特徴が近い将来どのように変化するかを想像し、これらの想像された表現に基づいて将来のアクションラベルを予測する。
異なることに、ImagineRNNは機能回帰ではなく、対照的な学習方法で最適化されています。
プロキシタスクを使ってimaginernnをトレーニングします。つまり、気晴らしから正しい状態を選択するのです。
さらに,フレームの内容に代えて隣接するフレームの特徴差を予測できるように目標を変更して,imaginernnをさらに改善する。
これにより、隣接フレームの特徴の違いが将来を予測する上でより重要であるため、ネットワークがターゲット、すなわち将来の行動に焦点を合わせることが促進される。
2つの大規模エゴセントリックアクションデータセットに関する広範な実験により,本手法の有効性が検証された。
本手法は,epic kitchens action anticipation challengeの既往のテストセットと未発見のテストセットの両方において,従来の方法を大幅に上回っている。
関連論文リスト
- DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Learning Future Object Prediction with a Spatiotemporal Detection
Transformer [1.1543275835002982]
我々は、未来のオブジェクトを直接出力するように検出変換器を訓練する。
既存のトランスフォーマーを2つの方法で拡張し、シーンダイナミクスをキャプチャします。
我々の最終アプローチは、力学を捉えることを学び、100ミリ秒の予測地平線をオラクルと同等に予測する。
論文 参考訳(メタデータ) (2022-04-21T17:58:36Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。