論文の概要: Simple means Faster: Real-Time Human Motion Forecasting in Monocular
First Person Videos on CPU
- arxiv url: http://arxiv.org/abs/2011.04943v1
- Date: Tue, 10 Nov 2020 07:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:57:31.283106
- Title: Simple means Faster: Real-Time Human Motion Forecasting in Monocular
First Person Videos on CPU
- Title(参考訳): 単純で速い:cpu上の一人称ビデオのリアルタイム人間の動き予測
- Authors: Junaid Ahmed Ansari and Brojeshwar Bhowmick
- Abstract要約: 人称単眼ビデオにおける人間の将来の位置を予測するための,シンプルで高速で軽量なRNNベースのフレームワークを提案する。
CityWalksで訓練した単純な手法は、CPU上で9.6倍高速でありながら、最先端手法(STED)の予測精度を上回る。
- 参考スコア(独自算出の注目度): 4.685534796162207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple, fast, and light-weight RNN based framework for
forecasting future locations of humans in first person monocular videos. The
primary motivation for this work was to design a network which could accurately
predict future trajectories at a very high rate on a CPU. Typical applications
of such a system would be a social robot or a visual assistance system for all,
as both cannot afford to have high compute power to avoid getting heavier, less
power efficient, and costlier. In contrast to many previous methods which rely
on multiple type of cues such as camera ego-motion or 2D pose of the human, we
show that a carefully designed network model which relies solely on bounding
boxes can not only perform better but also predicts trajectories at a very high
rate while being quite low in size of approximately 17 MB. Specifically, we
demonstrate that having an auto-encoder in the encoding phase of the past
information and a regularizing layer in the end boosts the accuracy of
predictions with negligible overhead. We experiment with three first person
video datasets: CityWalks, FPL and JAAD. Our simple method trained on CityWalks
surpasses the prediction accuracy of state-of-the-art method (STED) while being
9.6x faster on a CPU (STED runs on a GPU). We also demonstrate that our model
can transfer zero-shot or after just 15% fine-tuning to other similar datasets
and perform on par with the state-of-the-art methods on such datasets (FPL and
DTP). To the best of our knowledge, we are the first to accurately forecast
trajectories at a very high prediction rate of 78 trajectories per second on
CPU.
- Abstract(参考訳): 人称単眼ビデオにおける人間の将来の位置を予測するための,シンプルで高速で軽量なRNNベースのフレームワークを提案する。
この研究の主な動機は、CPU上で非常に高い速度で将来の軌道を正確に予測できるネットワークを設計することであった。
このようなシステムの典型的な応用は、より重く、電力効率が低く、よりコストが高いことを避けるために高い計算能力を持つ余裕がないため、社会ロボットや視覚補助システムである。
カメラエゴモーションや人間の2Dポーズなど,複数のタイプのキューに依存する従来の手法とは対照的に,境界ボックスにのみ依存するネットワークモデルでは,性能が向上するだけでなく,約17MB程度の大きさのトラジェクトリを極めて高い速度で予測できることが示されている。
具体的には,過去の情報の符号化フェーズに自動エンコーダを,最後に正規化層を配置することにより,オーバーヘッドを無視できる予測精度が向上することを示す。
我々は、CityWalks、FPL、JAADという3つのファーストパーソンビデオデータセットを実験した。
CityWalksでトレーニングした単純な手法は、CPU上で9.6倍高速なSTED(State-of-the-art method)の予測精度を上回る。
また、我々のモデルは、ゼロショットまたは15%の微調整を他の類似したデータセットに転送し、そのようなデータセット(FPLとDTP)の最先端の手法と同等に実行することを示す。
我々の知る限りでは、我々はcpu上で非常に高い予測速度で軌道を正確に予測した最初の人物である。
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Efficient Baselines for Motion Prediction in Autonomous Driving [7.608073471097835]
複数の周辺エージェントの運動予測(MP)は、任意に複雑な環境において重要な課題である。
注意機構やGNNを含むMPのためのSOTA(State-Of-The-Art)技術を用いて,コンパクトなモデルを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-06T22:18:16Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - WatchPed: Pedestrian Crossing Intention Prediction Using Embedded
Sensors of Smartwatch [11.83842808044211]
我々は、モーションセンサデータの統合に基づいて、最初の歩行者意図予測モデルを設計、実装、評価する。
モーションセンサデータを効果的に活用するために,新しい機械学習アーキテクチャを提案する。
本稿では,時間同期型モーションセンサデータと統合した最初の歩行者意図予測データセットを提案する。
論文 参考訳(メタデータ) (2022-08-15T21:27:21Z) - Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。
本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。
この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文 参考訳(メタデータ) (2022-06-28T17:59:45Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers [5.721124285238146]
高速移動する単眼カメラからの画像間の相対的なポーズを予測する畳み込みニューラルネットワーク(CNN)について検討する。
本研究のネットワークは, モデルサイズが小さく, 推論速度も高い。
トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。
論文 参考訳(メタデータ) (2021-01-06T01:20:29Z) - It Is Not the Journey but the Destination: Endpoint Conditioned
Trajectory Prediction [59.027152973975575]
フレキシブルな人間の軌道予測のための予測条件付きネットワーク(PECNet)を提案する。
PECNetは長距離マルチモーダル軌道予測を支援するために遠方のエンドポイントを推論する。
我々は、PECNetがスタンフォードドローン軌道予測ベンチマークの最先端性能を20.9%改善し、ETH/UCYベンチマークの40.8%向上したことを示す。
論文 参考訳(メタデータ) (2020-04-04T21:27:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。