Fugu-MT 論文翻訳(概要): From Recognition to Prediction: Analysis of Human Action and Trajectory Prediction in Video

論文の概要: From Recognition to Prediction: Analysis of Human Action and Trajectory Prediction in Video

arxiv url: http://arxiv.org/abs/2011.10670v3
Date: Fri, 16 Jul 2021 13:45:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 06:06:36.231626
Title: From Recognition to Prediction: Analysis of Human Action and Trajectory Prediction in Video
Title（参考訳）: 認識から予測へ:映像における人間の行動と軌道予測の分析
Authors: Junwei Liang
Abstract要約: 将来の経路/軌道を予測するための人間の行動の解読が重要である。人間の軌道予測は依然として困難な課題である。システムは、シーンセマンティクスと同様に、人間の活動を検出し、分析しなければなりません。
参考スコア（独自算出の注目度）: 4.163207534602723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the advancement in computer vision deep learning, systems now are able to analyze an unprecedented amount of rich visual information from videos to enable applications such as autonomous driving, socially-aware robot assistant and public safety monitoring. Deciphering human behaviors to predict their future paths/trajectories and what they would do from videos is important in these applications. However, human trajectory prediction still remains a challenging task, as scene semantics and human intent are difficult to model. Many systems do not provide high-level semantic attributes to reason about pedestrian future. This design hinders prediction performance in video data from diverse domains and unseen scenarios. To enable optimal future human behavioral forecasting, it is crucial for the system to be able to detect and analyze human activities as well as scene semantics, passing informative features to the subsequent prediction module for context understanding.
Abstract（参考訳）: コンピュータビジョンの深層学習の進歩により、システムはこれまでになく豊富な映像情報をビデオから分析し、自動運転、社会的に認識されたロボットアシスタント、公衆安全監視などの応用を可能にする。これらのアプリケーションでは、人間の振る舞いを解読して将来の経路や軌跡を予測し、ビデオから何をするかが重要である。しかし、シーンのセマンティクスや人間の意図はモデル化が難しいため、人間の軌道予測は依然として難しい課題である。多くのシステムは歩行者の未来を推論する高レベルなセマンティック属性を提供していない。この設計は、多様なドメインや見えないシナリオからのビデオデータの予測性能を妨げる。将来の人間の行動予測を最適なものにするためには,人間の行動やシーンの意味を検知・分析し,文脈理解のための情報的特徴を次の予測モジュールに渡すことが不可欠である。

関連論文リスト

Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文参考訳（メタデータ） (2023-09-29T13:02:56Z)
Interpretable Self-Aware Neural Networks for Robust Trajectory Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-16T06:28:20Z)
GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。私たちのデータ収集は特定のシーンに縛られません。視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-04-20T13:17:39Z)
A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文参考訳（メタデータ） (2022-04-02T21:50:45Z)
A Framework for Multisensory Foresight for Embodied Agents [11.351546861334292]
将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
論文参考訳（メタデータ） (2021-09-15T20:20:04Z)
Predicting the Future from First Person (Egocentric) Vision: A Survey [18.07516837332113]
この調査は、自我中心のビジョンから将来の予測の文脈における研究の進化を要約する。アプリケーション、デバイス、既存の問題、一般的に使用されるデータセット、モデル、入力モダリティの概要を説明している。我々の分析は、自我中心の視覚から将来の予測方法が、様々なアプリケーションに重大な影響を与えることを強調している。
論文参考訳（メタデータ） (2021-07-28T14:58:13Z)
Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文参考訳（メタデータ） (2021-03-18T15:12:06Z)
VRUNet: Multi-Task Learning Model for Intent Prediction of Vulnerable Road Users [3.6265173818019947]
本稿では、歩行者行動の予測、横断意図の予測、ビデオシーケンスからの将来の経路予測のためのマルチタスク学習モデルを提案する。我々は、行動アノテーションや実世界のシナリオに富んだ、オープンソースのJAADデータセットを自然言語で駆動するモデルを訓練しました。実験結果からJAADデータセットの最先端性能が示された。
論文参考訳（メタデータ） (2020-07-10T14:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。