論文の概要: Untrimmed Action Anticipation
- arxiv url: http://arxiv.org/abs/2202.04132v1
- Date: Tue, 8 Feb 2022 20:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:12:33.318063
- Title: Untrimmed Action Anticipation
- Title(参考訳): 未解決の行動予測
- Authors: Ivan Rodin, Antonino Furnari, Dimitrios Mavroeidis and Giovanni Maria
Farinella
- Abstract要約: エゴセントリックなアクション予測は、カメラ装着者がエゴセントリックなビデオから将来のアクションを予測することである。
現在のアプローチでは、入力ビデオはトリミングされていると仮定しており、短いビデオシーケンスはアクションの開始前に一定時間サンプリングされる。
この分野の最近の進歩にもかかわらず、トリムされた行動予測は現実のシナリオにおいて限定的な適用性を有すると我々は主張する。
- 参考スコア(独自算出の注目度): 20.630139085937586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric action anticipation consists in predicting a future action the
camera wearer will perform from egocentric video. While the task has recently
attracted the attention of the research community, current approaches assume
that the input videos are "trimmed", meaning that a short video sequence is
sampled a fixed time before the beginning of the action. We argue that, despite
the recent advances in the field, trimmed action anticipation has a limited
applicability in real-world scenarios where it is important to deal with
"untrimmed" video inputs and it cannot be assumed that the exact moment in
which the action will begin is known at test time. To overcome such
limitations, we propose an untrimmed action anticipation task, which, similarly
to temporal action detection, assumes that the input video is untrimmed at test
time, while still requiring predictions to be made before the actions actually
take place. We design an evaluation procedure for methods designed to address
this novel task, and compare several baselines on the EPIC-KITCHENS-100
dataset. Experiments show that the performance of current models designed for
trimmed action anticipation is very limited and more research on this task is
required.
- Abstract(参考訳): エゴセントリックアクション予測は、カメラ装着者がエゴセントリックビデオから行う将来のアクションを予測することを含む。
このタスクは、最近研究コミュニティの注目を集めているが、現在のアプローチでは、入力ビデオは「トリミング」であり、短いビデオシーケンスは、アクションの開始前に一定時間サンプリングされていると仮定している。
この分野の最近の進歩にもかかわらず、トリミングされたアクション予測は、"未熟"なビデオ入力を扱うことが重要であり、そのアクションが開始する正確な瞬間がテスト時にわかっていると仮定できない実世界のシナリオにおいて、限定的な適用性を持つ。
このような制約を克服するために, 時間的動作検出と同様に, 入力映像がテスト時に未トリミングであると仮定し, 動作が実際に行われる前に予測を行うよう要求する非トリミング動作予測タスクを提案する。
本稿では,この課題に対処する手法の評価手順を設計し,EPIC-KITCHENS-100データセットのベースラインを比較した。
実験により、トリミングされた動作予測のために設計された現在のモデルの性能は非常に限定的であり、このタスクに関するさらなる研究が必要であることが示されている。
関連論文リスト
- About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Towards Streaming Egocentric Action Anticipation [23.9991007631236]
エゴセントリックなアクション予測は、カメラ装着者が過去のビデオ観察に基づいて実行するであろう未来のアクションを予測するタスクである。
現在の評価スキームは、予測をオフラインにできるので、計算資源は制限されないと仮定している。
本稿では,パフォーマンス評価のためのモデルランタイムを明示的に検討した,ストリーミングのエゴセントリックなアクション予測評価プロトコルを提案する。
論文 参考訳(メタデータ) (2021-10-11T16:22:56Z) - Review of Video Predictive Understanding: Early ActionRecognition and
Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。
様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。
深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文 参考訳(メタデータ) (2021-07-11T22:46:52Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。