論文の概要: JOADAA: joint online action detection and action anticipation
- arxiv url: http://arxiv.org/abs/2309.06130v1
- Date: Tue, 12 Sep 2023 11:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:32:44.930241
- Title: JOADAA: joint online action detection and action anticipation
- Title(参考訳): JOADAA:オンライン行動検出と行動予測の共同研究
- Authors: Mohammed Guermal, Francois Bremond, Rui Dai, Abid Ali
- Abstract要約: アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。
オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。
行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
- 参考スコア(独自算出の注目度): 2.7792814152937027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action anticipation involves forecasting future actions by connecting past
events to future ones. However, this reasoning ignores the real-life hierarchy
of events which is considered to be composed of three main parts: past,
present, and future. We argue that considering these three main parts and their
dependencies could improve performance. On the other hand, online action
detection is the task of predicting actions in a streaming manner. In this
case, one has access only to the past and present information. Therefore, in
online action detection (OAD) the existing approaches miss semantics or future
information which limits their performance. To sum up, for both of these tasks,
the complete set of knowledge (past-present-future) is missing, which makes it
challenging to infer action dependencies, therefore having low performances. To
address this limitation, we propose to fuse both tasks into a single uniform
architecture. By combining action anticipation and online action detection, our
approach can cover the missing dependencies of future information in online
action detection. This method referred to as JOADAA, presents a uniform model
that jointly performs action anticipation and online action detection. We
validate our proposed model on three challenging datasets: THUMOS'14, which is
a sparsely annotated dataset with one action per time step, CHARADES, and
Multi-THUMOS, two densely annotated datasets with more complex scenarios.
JOADAA achieves SOTA results on these benchmarks for both tasks.
- Abstract(参考訳): 行動予測は、過去の出来事と将来の出来事を結びつけることによって将来の行動を予測する。
しかし、この推論は、過去、現在、未来という3つの主要部分からなると考えられるイベントの実生活階層を無視している。
これら3つの主要な部分とその依存関係を考慮すると、パフォーマンスが向上します。
その一方で、オンラインアクション検出は、アクションをストリーミング形式で予測するタスクである。
この場合、過去と現在の情報のみにアクセスすることができる。
したがって、オンラインアクション検出(OAD)では、既存のアプローチは、パフォーマンスを制限するセマンティクスや将来の情報を見逃している。
まとめると、これら2つのタスクでは、完全な知識セット(past-present-future)が欠落しているため、アクション依存性の推測が難しくなり、パフォーマンスが低下する。
この制限に対処するため、我々は両方のタスクを単一の統一アーキテクチャに融合することを提案する。
行動予測とオンライン行動検出を組み合わせることで、オンライン行動検出における未来の情報の欠如をカバーできる。
この方法はJOADAAと呼ばれ、行動予測とオンライン行動検出を共同で行う一様モデルを示す。
我々は提案したモデルを3つの挑戦的データセットに対して検証した。THUMOS'14は、より複雑なシナリオを持つ2つの厳密な注釈付きデータセットであるCARADESとMulti-THUMOSである。
JOADAAは両方のタスクのベンチマークでSOTA結果を達成する。
関連論文リスト
- About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Actor-identified Spatiotemporal Action Detection -- Detecting Who Is
Doing What in Videos [29.5205455437899]
ビデオ中の各アクションの開始時刻と終了時刻を推定するために、TAD(Temporal Action Detection)が検討されている。
時空間行動検出 (SAD) は, 映像の空間的, 時間的両方の行動の局所化を目的として研究されている。
SADアクター識別のギャップを埋める新しいタスクであるActor-identified Spatiotemporal Action Detection (ASAD)を提案する。
論文 参考訳(メタデータ) (2022-08-27T06:51:12Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。