論文の概要: Multi-Modal Temporal Convolutional Network for Anticipating Actions in
Egocentric Videos
- arxiv url: http://arxiv.org/abs/2107.09504v1
- Date: Sun, 18 Jul 2021 16:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:57:58.572567
- Title: Multi-Modal Temporal Convolutional Network for Anticipating Actions in
Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおける行動予測のためのマルチモーダル時間畳み込みネットワーク
- Authors: Olga Zatsarynna, Yazan Abu Farha and Juergen Gall
- Abstract要約: 正確だが十分に速くないメソッドは、意思決定プロセスに高いレイテンシをもたらす。
これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。
本稿では,時間的畳み込みに基づくシンプルで効果的なマルチモーダルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 22.90184887794109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating human actions is an important task that needs to be addressed
for the development of reliable intelligent agents, such as self-driving cars
or robot assistants. While the ability to make future predictions with high
accuracy is crucial for designing the anticipation approaches, the speed at
which the inference is performed is not less important. Methods that are
accurate but not sufficiently fast would introduce a high latency into the
decision process. Thus, this will increase the reaction time of the underlying
system. This poses a problem for domains such as autonomous driving, where the
reaction time is crucial. In this work, we propose a simple and effective
multi-modal architecture based on temporal convolutions. Our approach stacks a
hierarchy of temporal convolutional layers and does not rely on recurrent
layers to ensure a fast prediction. We further introduce a multi-modal fusion
mechanism that captures the pairwise interactions between RGB, flow, and object
modalities. Results on two large-scale datasets of egocentric videos,
EPIC-Kitchens-55 and EPIC-Kitchens-100, show that our approach achieves
comparable performance to the state-of-the-art approaches while being
significantly faster.
- Abstract(参考訳): 人間の行動を予測することは、自動運転車やロボットアシスタントのような信頼性の高いインテリジェントエージェントの開発に対処する必要がある重要なタスクである。
予測手法の設計には高い精度で将来の予測を行う能力が不可欠であるが、推論を行う速度はそれほど重要ではない。
正確だが十分な速度ではないメソッドは、決定プロセスに高いレイテンシをもたらす。
これにより、基礎となるシステムの反応時間が増加する。
これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。
本研究では,時間的畳み込みに基づく簡易かつ効果的なマルチモーダルアーキテクチャを提案する。
我々のアプローチは、時間的畳み込み層の階層を積み重ね、高速な予測を保証するために繰り返しの層に依存しない。
さらに,rgb,フロー,オブジェクト間の対相互作用をキャプチャするマルチモーダル融合機構についても紹介する。
EPIC-Kitchens-55 と EPIC-Kitchens-100 の2つの大規模なエゴセントリックビデオデータセットの結果から,本手法は最先端のアプローチに匹敵する性能を示しながら,より高速であることを示す。
関連論文リスト
- Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - ProphNet: Efficient Agent-Centric Motion Forecasting with
Anchor-Informed Proposals [6.927103549481412]
モーション予測は自動運転システムにおいて重要なモジュールである。
マルチソース入力の不均一性、エージェント動作のマルチモーダリティ、オンボードデプロイメントに必要な低レイテンシのため、このタスクは極めて難しい。
本稿では,効率的なマルチモーダル動作予測のためのアンカー情報を用いたエージェント中心モデルを提案する。
論文 参考訳(メタデータ) (2023-03-21T17:58:28Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - GATraj: A Graph- and Attention-based Multi-Agent Trajectory Prediction
Model [18.762609012554147]
軌道予測は、自律運転やロボットナビゲーションといったインテリジェントシステムにおいて、長年にわたって問題となっていた。
本稿では,予測精度と推定速度のバランスが良好であるGATrajという注目グラフモデルを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:29:19Z) - SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric
Videos [2.6572330982240935]
我々は,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築した。
3つの異なるモードから抽出した特徴を,同時に,遅く,かつ高速に評価する,新しいアテンションベース手法を提案する。
2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。
論文 参考訳(メタデータ) (2021-09-02T10:20:18Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - Temporal Pyramid Network for Pedestrian Trajectory Prediction with
Multi-Supervision [27.468166556263256]
本研究では,歩行者軌跡予測のための時間的ピラミッドネットワークを提案する。
我々の階層的なフレームワークは、上から下までよりリッチな時間情報を持つ特徴ピラミッドを構築し、様々なテンポでの動作をよりよく捉えます。
グローバルコンテキストの上位粗い特徴をリッチローカルコンテキストの下位細かい特徴に段階的にマージすることにより、この手法は軌道の長距離情報と短距離情報の両方を完全に活用することができる。
論文 参考訳(メタデータ) (2020-12-03T13:02:59Z) - FMA-ETA: Estimating Travel Time Entirely Based on FFN With Attention [88.33372574562824]
フィードフォワードネットワーク(FFN, FFN, 複数要素自己認識(FMA-ETA)に基づく新しいフレームワークを提案する。
異なるカテゴリの特徴に対処し,情報を意図的に集約する,新しい多要素自己認識機構を提案する。
実験の結果、FMA-ETAは予測精度において最先端の手法と競合し、推論速度は大幅に向上した。
論文 参考訳(メタデータ) (2020-06-07T08:10:47Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。