論文の概要: Predicting the Next Action by Modeling the Abstract Goal
- arxiv url: http://arxiv.org/abs/2209.05044v3
- Date: Tue, 6 Jun 2023 05:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:52:33.869233
- Title: Predicting the Next Action by Modeling the Abstract Goal
- Title(参考訳): 抽象目標のモデル化による次の行動予測
- Authors: Debaditya Roy and Basura Fernando
- Abstract要約: 本研究では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。
我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。
提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。
- 参考スコア(独自算出の注目度): 24.587221151462163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of anticipating human actions is an inherently uncertain one.
However, we can reduce this uncertainty if we have a sense of the goal that the
actor is trying to achieve. Here, we present an action anticipation model that
leverages goal information for the purpose of reducing the uncertainty in
future predictions. Since we do not possess goal information or the observed
actions during inference, we resort to visual representation to encapsulate
information about both actions and goals. Through this, we derive a novel
concept called abstract goal which is conditioned on observed sequences of
visual features for action anticipation. We design the abstract goal as a
distribution whose parameters are estimated using a variational recurrent
network. We sample multiple candidates for the next action and introduce a goal
consistency measure to determine the best candidate that follows from the
abstract goal. Our method obtains impressive results on the very challenging
Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute
improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1
action anticipation accuracy respectively over prior state-of-the-art methods
for seen kitchens (S1) of EK55. Similarly, we also obtain significant
improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun
(+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA
Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained
for noun, verb, and action anticipation. It is through the submission of this
paper that our method is currently the new state-of-the-art for action
anticipation in EK55 and EGTEA Gaze+
https://competitions.codalab.org/competitions/20071#results Code available at
https://github.com/debadityaroy/Abstract_Goal
- Abstract(参考訳): 人間の行動を予測する問題は本質的に不確実である。
しかし、俳優が達成しようとしている目標を把握できれば、この不確実性を低減することができる。
本稿では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。
我々は、推論中に目標情報や観察された行動を持っていないので、視覚表現を用いて行動と目標の両方に関する情報をカプセル化する。
そこで我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。
この抽象目標を,変動リカレントネットワークを用いてパラメータを推定する分布として設計する。
我々は,次の行動に対する複数の候補をサンプリングし,抽象目標から従う最適な候補を決定するための目標整合度尺度を導入する。
提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。
ek55のs1法と比較して,top-1動詞の+13.69,+11.24,+5.19,top-1名詞,top-1行動予測精度の絶対的改善が得られた。
同様に、トップ1動詞(+10.75)、名詞(+5.84)、行動(+2.87)に設定された未確認キッチン(S2)の大幅な改善も得られる。
EGTEA Gaze+データセットでも同様の傾向が見られ、名詞、動詞、行動予測に対して+9.9、+13.1、+6.8の絶対的な改善が得られる。
本論文の提出により,本手法は現在,ek55およびegtea gaze+ https://competitions.codalab.org/competitions/20071#resultsコードが,https://github.com/debadityaroy/abstract_goalで利用可能である。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Semantically Guided Representation Learning For Action Anticipation [9.836788915947924]
本稿では,S-GEAR(Semantically Guided Representation Learning)フレームワークを提案する。
S-GEARは視覚行動のプロトタイプを学び、言語モデルを利用して関係を構造化し、意味を誘導する。
我々は,S-GEARが言語から視覚プロトタイプへ行動間の幾何学的関連を効果的に伝達することを示した。
論文 参考訳(メタデータ) (2024-07-02T14:44:01Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? [28.912026171231528]
長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
論文 参考訳(メタデータ) (2023-07-31T02:14:19Z) - Action Anticipation with Goal Consistency [19.170733994203367]
我々は,将来起こるであろう行動を予測するために,高レベルの意図情報を活用することを提案する。
提案手法の有効性を実証し,提案手法が2つの大規模データセットに対して最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-26T20:04:23Z) - NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022 [13.603712913129506]
EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。
我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-06-22T06:34:58Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。