論文の概要: Multi-Modal Temporal Convolutional Network for Anticipating Actions in
Egocentric Videos
- arxiv url: http://arxiv.org/abs/2107.09504v1
- Date: Sun, 18 Jul 2021 16:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:57:58.572567
- Title: Multi-Modal Temporal Convolutional Network for Anticipating Actions in
Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおける行動予測のためのマルチモーダル時間畳み込みネットワーク
- Authors: Olga Zatsarynna, Yazan Abu Farha and Juergen Gall
- Abstract要約: 正確だが十分に速くないメソッドは、意思決定プロセスに高いレイテンシをもたらす。
これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。
本稿では,時間的畳み込みに基づくシンプルで効果的なマルチモーダルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 22.90184887794109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating human actions is an important task that needs to be addressed
for the development of reliable intelligent agents, such as self-driving cars
or robot assistants. While the ability to make future predictions with high
accuracy is crucial for designing the anticipation approaches, the speed at
which the inference is performed is not less important. Methods that are
accurate but not sufficiently fast would introduce a high latency into the
decision process. Thus, this will increase the reaction time of the underlying
system. This poses a problem for domains such as autonomous driving, where the
reaction time is crucial. In this work, we propose a simple and effective
multi-modal architecture based on temporal convolutions. Our approach stacks a
hierarchy of temporal convolutional layers and does not rely on recurrent
layers to ensure a fast prediction. We further introduce a multi-modal fusion
mechanism that captures the pairwise interactions between RGB, flow, and object
modalities. Results on two large-scale datasets of egocentric videos,
EPIC-Kitchens-55 and EPIC-Kitchens-100, show that our approach achieves
comparable performance to the state-of-the-art approaches while being
significantly faster.
- Abstract(参考訳): 人間の行動を予測することは、自動運転車やロボットアシスタントのような信頼性の高いインテリジェントエージェントの開発に対処する必要がある重要なタスクである。
予測手法の設計には高い精度で将来の予測を行う能力が不可欠であるが、推論を行う速度はそれほど重要ではない。
正確だが十分な速度ではないメソッドは、決定プロセスに高いレイテンシをもたらす。
これにより、基礎となるシステムの反応時間が増加する。
これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。
本研究では,時間的畳み込みに基づく簡易かつ効果的なマルチモーダルアーキテクチャを提案する。
我々のアプローチは、時間的畳み込み層の階層を積み重ね、高速な予測を保証するために繰り返しの層に依存しない。
さらに,rgb,フロー,オブジェクト間の対相互作用をキャプチャするマルチモーダル融合機構についても紹介する。
EPIC-Kitchens-55 と EPIC-Kitchens-100 の2つの大規模なエゴセントリックビデオデータセットの結果から,本手法は最先端のアプローチに匹敵する性能を示しながら,より高速であることを示す。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Multi-agent Traffic Prediction via Denoised Endpoint Distribution [23.767783008524678]
高速での軌道予測には歴史的特徴と周囲の物体との相互作用が必要である。
軌道予測のためのDenoized Distributionモデルを提案する。
我々のアプローチは、エンドポイント情報によるモデルの複雑さとパフォーマンスを著しく削減します。
論文 参考訳(メタデータ) (2024-05-11T15:41:32Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。
我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文 参考訳(メタデータ) (2023-11-14T11:53:24Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - ProphNet: Efficient Agent-Centric Motion Forecasting with
Anchor-Informed Proposals [6.927103549481412]
モーション予測は自動運転システムにおいて重要なモジュールである。
マルチソース入力の不均一性、エージェント動作のマルチモーダリティ、オンボードデプロイメントに必要な低レイテンシのため、このタスクは極めて難しい。
本稿では,効率的なマルチモーダル動作予測のためのアンカー情報を用いたエージェント中心モデルを提案する。
論文 参考訳(メタデータ) (2023-03-21T17:58:28Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric
Videos [2.6572330982240935]
我々は,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築した。
3つの異なるモードから抽出した特徴を,同時に,遅く,かつ高速に評価する,新しいアテンションベース手法を提案する。
2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。
論文 参考訳(メタデータ) (2021-09-02T10:20:18Z) - Temporal Pyramid Network for Pedestrian Trajectory Prediction with
Multi-Supervision [27.468166556263256]
本研究では,歩行者軌跡予測のための時間的ピラミッドネットワークを提案する。
我々の階層的なフレームワークは、上から下までよりリッチな時間情報を持つ特徴ピラミッドを構築し、様々なテンポでの動作をよりよく捉えます。
グローバルコンテキストの上位粗い特徴をリッチローカルコンテキストの下位細かい特徴に段階的にマージすることにより、この手法は軌道の長距離情報と短距離情報の両方を完全に活用することができる。
論文 参考訳(メタデータ) (2020-12-03T13:02:59Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。