Fugu-MT 論文翻訳(概要): Multi-Modal Temporal Convolutional Network for Anticipating Actions in Egocentric Videos

論文の概要: Multi-Modal Temporal Convolutional Network for Anticipating Actions in Egocentric Videos

arxiv url: http://arxiv.org/abs/2107.09504v1
Date: Sun, 18 Jul 2021 16:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-21 14:57:58.572567
Title: Multi-Modal Temporal Convolutional Network for Anticipating Actions in Egocentric Videos
Title（参考訳）: エゴセントリックビデオにおける行動予測のためのマルチモーダル時間畳み込みネットワーク
Authors: Olga Zatsarynna, Yazan Abu Farha and Juergen Gall
Abstract要約: 正確だが十分に速くないメソッドは、意思決定プロセスに高いレイテンシをもたらす。これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。本稿では,時間的畳み込みに基づくシンプルで効果的なマルチモーダルアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 22.90184887794109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Anticipating human actions is an important task that needs to be addressed for the development of reliable intelligent agents, such as self-driving cars or robot assistants. While the ability to make future predictions with high accuracy is crucial for designing the anticipation approaches, the speed at which the inference is performed is not less important. Methods that are accurate but not sufficiently fast would introduce a high latency into the decision process. Thus, this will increase the reaction time of the underlying system. This poses a problem for domains such as autonomous driving, where the reaction time is crucial. In this work, we propose a simple and effective multi-modal architecture based on temporal convolutions. Our approach stacks a hierarchy of temporal convolutional layers and does not rely on recurrent layers to ensure a fast prediction. We further introduce a multi-modal fusion mechanism that captures the pairwise interactions between RGB, flow, and object modalities. Results on two large-scale datasets of egocentric videos, EPIC-Kitchens-55 and EPIC-Kitchens-100, show that our approach achieves comparable performance to the state-of-the-art approaches while being significantly faster.
Abstract（参考訳）: 人間の行動を予測することは、自動運転車やロボットアシスタントのような信頼性の高いインテリジェントエージェントの開発に対処する必要がある重要なタスクである。予測手法の設計には高い精度で将来の予測を行う能力が不可欠であるが、推論を行う速度はそれほど重要ではない。正確だが十分な速度ではないメソッドは、決定プロセスに高いレイテンシをもたらす。これにより、基礎となるシステムの反応時間が増加する。これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。本研究では,時間的畳み込みに基づく簡易かつ効果的なマルチモーダルアーキテクチャを提案する。我々のアプローチは、時間的畳み込み層の階層を積み重ね、高速な予測を保証するために繰り返しの層に依存しない。さらに,rgb,フロー,オブジェクト間の対相互作用をキャプチャするマルチモーダル融合機構についても紹介する。 EPIC-Kitchens-55 と EPIC-Kitchens-100 の2つの大規模なエゴセントリックビデオデータセットの結果から,本手法は最先端のアプローチに匹敵する性能を示しながら,より高速であることを示す。

関連論文リスト

ILNet: Trajectory Prediction with Inverse Learning Attention for Enhancing Intention Capture [4.190790144182306]
人間のドライバーは、車両を取り巻く意図に関する仮定に基づいて、初期運転決定を動的に調整することが認められている。 Inverse Learning (IL) attentionとDynamic Anchor SelectionDAS (DAS) moduleを用いたマルチエージェント軌道予測手法であるILNetを提案する。実験の結果,ILNet はInterAction と Argoverse の動作予測データセット上で,最先端の性能を達成していることがわかった。
論文参考訳（メタデータ） (2025-07-09T04:18:01Z)
ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models [21.645510959114326]
一般的なソリューションはデュアルシステムアーキテクチャであり、迅速かつリアクティブな決定に小さなモデル、より遅いがより情報的な分析により大きなモデルを採用する。既存のデュアルシステム設計は、しばしば並列アーキテクチャを実装し、現在のフレームごとに大きなモデルを使って推論を行うか、以前に格納された推論結果から検索する。私たちの重要な洞察は、現在のフレームの集中的な計算を以前のタイムステップにシフトし、複数のタイムステップのバッチ推論を実行し、大きなモデルを各タイムステップに迅速に応答させることです。 ETAは最先端の性能を8%向上させ、運転スコアは69.53。
論文参考訳（メタデータ） (2025-06-09T13:11:02Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Multi-agent Traffic Prediction via Denoised Endpoint Distribution [23.767783008524678]
高速での軌道予測には歴史的特徴と周囲の物体との相互作用が必要である。軌道予測のためのDenoized Distributionモデルを提案する。我々のアプローチは、エンドポイント情報によるモデルの複雑さとパフォーマンスを著しく削減します。
論文参考訳（メタデータ） (2024-05-11T15:41:32Z)
AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文参考訳（メタデータ） (2024-03-20T06:22:37Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文参考訳（メタデータ） (2023-11-14T11:53:24Z)
Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。 K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文参考訳（メタデータ） (2023-10-19T17:59:01Z)
ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals [6.927103549481412]
モーション予測は自動運転システムにおいて重要なモジュールである。マルチソース入力の不均一性、エージェント動作のマルチモーダリティ、オンボードデプロイメントに必要な低レイテンシのため、このタスクは極めて難しい。本稿では,効率的なマルチモーダル動作予測のためのアンカー情報を用いたエージェント中心モデルを提案する。
論文参考訳（メタデータ） (2023-03-21T17:58:28Z)
SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。人間の動作予測のための非自己回帰モデルを提案する。
論文参考訳（メタデータ） (2023-03-11T01:44:29Z)
SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric Videos [2.6572330982240935]
我々は,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築した。 3つの異なるモードから抽出した特徴を,同時に,遅く,かつ高速に評価する,新しいアテンションベース手法を提案する。 2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。
論文参考訳（メタデータ） (2021-09-02T10:20:18Z)
Temporal Pyramid Network for Pedestrian Trajectory Prediction with Multi-Supervision [27.468166556263256]
本研究では,歩行者軌跡予測のための時間的ピラミッドネットワークを提案する。我々の階層的なフレームワークは、上から下までよりリッチな時間情報を持つ特徴ピラミッドを構築し、様々なテンポでの動作をよりよく捉えます。グローバルコンテキストの上位粗い特徴をリッチローカルコンテキストの下位細かい特徴に段階的にマージすることにより、この手法は軌道の長距離情報と短距離情報の両方を完全に活用することができる。
論文参考訳（メタデータ） (2020-12-03T13:02:59Z)
A Spatial-Temporal Attentive Network with Spatial Continuity for Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文参考訳（メタデータ） (2020-03-13T04:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。