論文の概要: SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2109.00829v1
- Date: Thu, 2 Sep 2021 10:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:11:33.881071
- Title: SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric
Videos
- Title(参考訳): エゴセントリックビデオにおけるスローファストロールロール型LSTMの動作予測
- Authors: Nada Osman, Guglielmo Camporese, Pasquale Coscia, Lamberto Ballan
- Abstract要約: 我々は,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築した。
3つの異なるモードから抽出した特徴を,同時に,遅く,かつ高速に評価する,新しいアテンションベース手法を提案する。
2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。
- 参考スコア(独自算出の注目度): 2.6572330982240935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Action anticipation in egocentric videos is a difficult task due to the
inherently multi-modal nature of human actions. Additionally, some actions
happen faster or slower than others depending on the actor or surrounding
context which could vary each time and lead to different predictions. Based on
this idea, we build upon RULSTM architecture, which is specifically designed
for anticipating human actions, and propose a novel attention-based technique
to evaluate, simultaneously, slow and fast features extracted from three
different modalities, namely RGB, optical flow, and extracted objects. Two
branches process information at different time scales, i.e., frame-rates, and
several fusion schemes are considered to improve prediction accuracy. We
perform extensive experiments on EpicKitchens-55 and EGTEA Gaze+ datasets, and
demonstrate that our technique systematically improves the results of RULSTM
architecture for Top-5 accuracy metric at different anticipation times.
- Abstract(参考訳): エゴセントリックビデオにおける行動予測は、本質的に人間の行動のマルチモーダルな性質のため、難しい課題である。
さらに、アクションによっては、アクタや周囲のコンテキストによって、それぞれが異なり、予測が異なる可能性がある場合もあります。
この考え方に基づいて,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築し,RGB,光フロー,抽出対象の3つの異なるモードから抽出された特徴を,同時に,遅くかつ高速に評価・評価する,新しいアテンションベース手法を提案する。
2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。
EpicKitchens-55 と EGTEA Gaze+ のデータセットに対する広範な実験を行い、予測時刻の異なるTop-5 精度測定のためのRULSTM アーキテクチャの結果を体系的に改善することを示した。
関連論文リスト
- A Time Series is Worth Five Experts: Heterogeneous Mixture of Experts for Traffic Flow Prediction [9.273632869779929]
本稿では,交通流予測のためのヘテロジニアス・ミックス・オブ・エキスパート(TITAN)モデルを提案する。
2つのパブリックトラフィックネットワークデータセットであるMETR-LAとP-BAYの実験では、TITANが変数中心の依存関係を効果的にキャプチャすることを示した。
従来のSOTAモデルと比較して、約4.37%から11.53%までのすべての評価指標の改善を実現している。
論文 参考訳(メタデータ) (2024-09-26T00:26:47Z) - The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations [13.747258771184372]
TP-GMMの適用にはいくつかのオープンな課題がある。
我々はロボットのエンドエフェクター速度を方向と大きさに分解する。
次に、複雑な実証軌道からセグメントとシーケンスのスキルを抽出する。
私たちのアプローチでは,5つのデモから複雑な操作タスクを学習することが可能です。
論文 参考訳(メタデータ) (2024-07-18T12:01:09Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Multi-Modal Temporal Convolutional Network for Anticipating Actions in
Egocentric Videos [22.90184887794109]
正確だが十分に速くないメソッドは、意思決定プロセスに高いレイテンシをもたらす。
これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。
本稿では,時間的畳み込みに基づくシンプルで効果的なマルチモーダルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-07-18T16:21:35Z) - SDMTL: Semi-Decoupled Multi-grained Trajectory Learning for 3D human
motion prediction [5.581663772616127]
本研究では,未来の人間の動きを予測するために,新たなエンド・ツー・エンドネットワークであるセミ・デカップリング・マルチグラウンド・トラジェクティブ・ラーニング・ネットワークを提案する。
具体的には、細粒度や粗さを含む多粒度運動軌跡の時間的ダイナミクスを捉える。
階層的にBSMEを用いて多粒性軌道情報を学習し、各粒度における時間的進化方向の情報をキャプチャする。
論文 参考訳(メタデータ) (2020-10-11T01:29:21Z) - Motion Prediction Using Temporal Inception Module [96.76721173517895]
人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
本フレームワークは,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。
論文 参考訳(メタデータ) (2020-10-06T20:26:01Z) - Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video [27.391434284586985]
ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
論文 参考訳(メタデータ) (2020-05-04T14:13:41Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。