論文の概要: JOADAA: joint online action detection and action anticipation
- arxiv url: http://arxiv.org/abs/2309.06130v1
- Date: Tue, 12 Sep 2023 11:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:32:44.930241
- Title: JOADAA: joint online action detection and action anticipation
- Title(参考訳): JOADAA:オンライン行動検出と行動予測の共同研究
- Authors: Mohammed Guermal, Francois Bremond, Rui Dai, Abid Ali
- Abstract要約: アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。
オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。
行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
- 参考スコア(独自算出の注目度): 2.7792814152937027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action anticipation involves forecasting future actions by connecting past
events to future ones. However, this reasoning ignores the real-life hierarchy
of events which is considered to be composed of three main parts: past,
present, and future. We argue that considering these three main parts and their
dependencies could improve performance. On the other hand, online action
detection is the task of predicting actions in a streaming manner. In this
case, one has access only to the past and present information. Therefore, in
online action detection (OAD) the existing approaches miss semantics or future
information which limits their performance. To sum up, for both of these tasks,
the complete set of knowledge (past-present-future) is missing, which makes it
challenging to infer action dependencies, therefore having low performances. To
address this limitation, we propose to fuse both tasks into a single uniform
architecture. By combining action anticipation and online action detection, our
approach can cover the missing dependencies of future information in online
action detection. This method referred to as JOADAA, presents a uniform model
that jointly performs action anticipation and online action detection. We
validate our proposed model on three challenging datasets: THUMOS'14, which is
a sparsely annotated dataset with one action per time step, CHARADES, and
Multi-THUMOS, two densely annotated datasets with more complex scenarios.
JOADAA achieves SOTA results on these benchmarks for both tasks.
- Abstract(参考訳): 行動予測は、過去の出来事と将来の出来事を結びつけることによって将来の行動を予測する。
しかし、この推論は、過去、現在、未来という3つの主要部分からなると考えられるイベントの実生活階層を無視している。
これら3つの主要な部分とその依存関係を考慮すると、パフォーマンスが向上します。
その一方で、オンラインアクション検出は、アクションをストリーミング形式で予測するタスクである。
この場合、過去と現在の情報のみにアクセスすることができる。
したがって、オンラインアクション検出(OAD)では、既存のアプローチは、パフォーマンスを制限するセマンティクスや将来の情報を見逃している。
まとめると、これら2つのタスクでは、完全な知識セット(past-present-future)が欠落しているため、アクション依存性の推測が難しくなり、パフォーマンスが低下する。
この制限に対処するため、我々は両方のタスクを単一の統一アーキテクチャに融合することを提案する。
行動予測とオンライン行動検出を組み合わせることで、オンライン行動検出における未来の情報の欠如をカバーできる。
この方法はJOADAAと呼ばれ、行動予測とオンライン行動検出を共同で行う一様モデルを示す。
我々は提案したモデルを3つの挑戦的データセットに対して検証した。THUMOS'14は、より複雑なシナリオを持つ2つの厳密な注釈付きデータセットであるCARADESとMulti-THUMOSである。
JOADAAは両方のタスクのベンチマークでSOTA結果を達成する。
関連論文リスト
- Tapestry of Time and Actions: Modeling Human Activity Sequences using
Temporal Point Process Flows [9.571588145356277]
本稿では,アクティビティシーケンス中のアクションの連続的な分布をモデル化するフレームワークであるProActiveを提案する。
ProActiveは次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成という3つの高影響問題に対処する。
論文 参考訳(メタデータ) (2023-07-13T19:17:54Z) - A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文 参考訳(メタデータ) (2022-09-09T03:02:49Z) - Actor-identified Spatiotemporal Action Detection -- Detecting Who Is
Doing What in Videos [29.5205455437899]
ビデオ中の各アクションの開始時刻と終了時刻を推定するために、TAD(Temporal Action Detection)が検討されている。
時空間行動検出 (SAD) は, 映像の空間的, 時間的両方の行動の局所化を目的として研究されている。
SADアクター識別のギャップを埋める新しいタスクであるActor-identified Spatiotemporal Action Detection (ASAD)を提案する。
論文 参考訳(メタデータ) (2022-08-27T06:51:12Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z) - Action Sequence Predictions of Vehicles in Urban Environments using Map
and Social Context [152.0714518512966]
本研究は、現実の運転シナリオにおける周辺車両の今後の行動の順序を予測する問題について研究する。
最初のコントリビューションは、現実世界の運転シナリオに記録された軌跡をHDマップの助けを借りてアクションシーケンスに変換する自動手法である。
第2のコントリビューションは、よく知られたトラフィックエージェント追跡と予測データセットArgoverseへのメソッドの適用であり、結果として228,000のアクションシーケンスが生成される。
第3のコントリビューションは,交通エージェント,地図情報,社会状況の過去の位置と速度を,単一エンドツーエンドのトレーニング可能なニューラルネットワークに統合して,新たな行動シーケンス予測手法を提案することである。
論文 参考訳(メタデータ) (2020-04-29T14:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。