論文の概要: Intention-Conditioned Long-Term Human Egocentric Action Forecasting @
EGO4D Challenge 2022
- arxiv url: http://arxiv.org/abs/2207.12080v1
- Date: Mon, 25 Jul 2022 11:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:53:15.785715
- Title: Intention-Conditioned Long-Term Human Egocentric Action Forecasting @
EGO4D Challenge 2022
- Title(参考訳): ego4d challenge 2022による意図的条件付き長期的人間エゴセントリック行動予測
- Authors: Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee
- Abstract要約: 我々は、エゴセントリックビデオにおける長期的な行動予測タスクに対処する。
人間の意図を高レベルな情報として活用することで、我々のモデルは長期的により時間的な行動を予測することができると主張している。
この研究はEGO4D LTA Challengeで、より確実な予測シーケンスを提供することで、第1位にランクインした。
- 参考スコア(独自算出の注目度): 10.808563617061846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To anticipate how a human would act in the future, it is essential to
understand the human intention since it guides the human towards a certain
goal. In this paper, we propose a hierarchical architecture which assumes a
sequence of human action (low-level) can be driven from the human intention
(high-level). Based on this, we deal with Long-Term Action Anticipation task in
egocentric videos. Our framework first extracts two level of human information
over the N observed videos human actions through a Hierarchical Multi-task MLP
Mixer (H3M). Then, we condition the uncertainty of the future through an
Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable
predictions of the next Z=20 actions that the observed human might perform. By
leveraging human intention as high-level information, we claim that our model
is able to anticipate more time-consistent actions in the long-term, thus
improving the results over baseline methods in EGO4D Challenge. This work
ranked first in the EGO4D LTA Challenge by providing more plausible anticipated
sequences, improving the anticipation of nouns and overall actions. The code is
available at https://github.com/Evm7/ego4dlta-icvae.
- Abstract(参考訳): 人間が将来どのように振る舞うかを予測するためには、人間をある目標に向けて導くため、人間の意図を理解することが不可欠である。
本稿では,人間の行動のシーケンス(低レベル)が人間の意図(高レベル)から駆動できると仮定した階層的アーキテクチャを提案する。
これに基づいて、エゴセントリックビデオにおける長期行動予測タスクを取り扱う。
我々のフレームワークはまず,階層型マルチタスクMLPミキサー(H3M)を用いて,Nの観察ビデオ上の2つのレベルの人的情報を抽出する。
そこで,本研究では,次のZ=20動作のK安定予測を生成する意図条件付き変分自動エンコーダ(I-CVAE)を用いて,未来の不確実性を条件とした。
人間の意図を高レベルの情報として活用することにより、我々のモデルは長期にわたるより時間的な行動を予測することができ、EGO4D Challengeにおける基準手法よりも結果を改善することができると主張している。
この研究はego4d ltaチャレンジで第1位となり、予測可能なシーケンスを提供し、名詞と全体的な行動の予測を改善した。
コードはhttps://github.com/evm7/ego4dlta-icvaeで入手できる。
関連論文リスト
- Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - AntGPT: Can Large Language Models Help Long-term Action Anticipation
from Videos? [30.157273098765337]
長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
論文 参考訳(メタデータ) (2023-07-31T02:14:19Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Generating Active Explicable Plans in Human-Robot Teaming [4.657875410615595]
ロボットは人間の期待に応えて明示的に振る舞うことが重要である。
説明可能な計画を生成するための既存のアプローチは、しばしば人間の期待が知られ、静的であると仮定する。
ベイズ的アプローチを用いて、人間の動的な信念と期待をモデル化し、予測し、説明可能な計画をさらに予測する。
論文 参考訳(メタデータ) (2021-09-18T05:05:50Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Recent Advances in Leveraging Human Guidance for Sequential
Decision-Making Tasks [60.380501589764144]
人工知能の長年の目標は、シーケンシャルな意思決定を必要とするタスクを実行することを学ぶことができる人工知能を作ることである。
学習し行動する人工エージェントであるが、実行すべき特定のタスクを特定するのは人間次第である。
この調査は、主に人間のガイダンスに依存する5つの最近の機械学習フレームワークのハイレベルな概要を提供する。
論文 参考訳(メタデータ) (2021-07-13T03:11:04Z) - 3D Human motion anticipation and classification [8.069283749930594]
人間の動き予測と特徴学習のための新しいシーケンス・トゥ・シークエンスモデルを提案する。
我々のモデルは、同じ入力シーケンスから複数の人間のポーズの将来のシーケンスを予測することを学習する。
識別器から学習した特徴を用いて,行動認識ネットワークを訓練するには,エポック数の半分以下しかかからないことを示す。
論文 参考訳(メタデータ) (2020-12-31T00:19:39Z) - Learning Models of Individual Behavior in Chess [4.793072503820555]
チェスにおける個人行動の高精度な予測モデルを構築した。
私たちの研究は、AIシステムを個人の行動とよりよく一致させる方法を示しています。
論文 参考訳(メタデータ) (2020-08-23T18:24:21Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。