論文の概要: GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior
Prediction
- arxiv url: http://arxiv.org/abs/2311.14786v2
- Date: Thu, 25 Jan 2024 20:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:37:35.411459
- Title: GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior
Prediction
- Title(参考訳): GPT-4V:歩行者行動予測の約束と課題
- Authors: Jia Huang, Peng Jiang, Alvika Gautam, and Srikanth Saripalli
- Abstract要約: 本研究は,自律運転における歩行者行動予測の文脈において,視覚言語モデル(VLM)の定量的および定性的な評価を行った最初のものである。
JAAD と WiDEVIEW を用いて GPT-4V の評価を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
- 参考スコア(独自算出の注目度): 12.613528624623514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting pedestrian behavior is the key to ensure safety and reliability of
autonomous vehicles. While deep learning methods have been promising by
learning from annotated video frame sequences, they often fail to fully grasp
the dynamic interactions between pedestrians and traffic, crucial for accurate
predictions. These models also lack nuanced common sense reasoning. Moreover,
the manual annotation of datasets for these models is expensive and challenging
to adapt to new situations. The advent of Vision Language Models (VLMs)
introduces promising alternatives to these issues, thanks to their advanced
visual and causal reasoning skills. To our knowledge, this research is the
first to conduct both quantitative and qualitative evaluations of VLMs in the
context of pedestrian behavior prediction for autonomous driving. We evaluate
GPT-4V(ision) on publicly available pedestrian datasets: JAAD and WiDEVIEW. Our
quantitative analysis focuses on GPT-4V's ability to predict pedestrian
behavior in current and future frames. The model achieves a 57% accuracy in a
zero-shot manner, which, while impressive, is still behind the state-of-the-art
domain-specific models (70%) in predicting pedestrian crossing actions.
Qualitatively, GPT-4V shows an impressive ability to process and interpret
complex traffic scenarios, differentiate between various pedestrian behaviors,
and detect and analyze groups. However, it faces challenges, such as difficulty
in detecting smaller pedestrians and assessing the relative motion between
pedestrians and the ego vehicle.
- Abstract(参考訳): 歩行者行動の予測は、自動運転車の安全性と信頼性を確保するための鍵である。
ディープラーニングの手法は、注釈付きビデオフレームシーケンスから学ぶことで有望だが、歩行者と交通の動的な相互作用を完全に把握できず、正確な予測に不可欠である。
これらのモデルは、ニュアンス的な常識推論も欠いている。
さらに、これらのモデルのデータセットのマニュアルアノテーションは高価で、新しい状況に適応するのは難しい。
ビジョン言語モデル(VLM)の出現は、高度な視覚的および因果推論技術のおかげで、これらの問題に対する有望な代替手段を導入する。
本研究は,自律運転における歩行者行動予測の文脈において,VLMの定量的,定性的な評価を行う最初の試みである。
JAAD と WiDEVIEW を用いて GPT-4V(ision) の評価を行った。
gpt-4vの現在および将来のフレームにおける歩行者行動予測能力に着目した定量的解析を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
定性的には、GPT-4Vは複雑な交通シナリオを処理し、解釈し、様々な歩行者行動の区別を行い、グループを検出し、分析することができる。
しかし、小型歩行者の検出や歩行者と自走車との相対的な動きの把握が難しいなどの課題に直面している。
関連論文リスト
- Analysis over vision-based models for pedestrian action anticipation [1.1470070927586016]
本稿では,歩行者のコンテキストのイメージを入力機能として利用することに焦点を当てる。
標準CNNおよびTransformerモジュールを利用する複数の紙モデルアーキテクチャを提案する。
本稿では,歩行者行動予測の文脈における視覚に基づくトランスフォーマーモデルの説明可能性について考察する。
論文 参考訳(メタデータ) (2023-05-27T11:30:32Z) - Local and Global Contextual Features Fusion for Pedestrian Intention
Prediction [2.203209457340481]
我々は歩行者と交通状況の両方の視覚的特徴を分析し分析する。
グローバルな文脈を理解するために、位置、動き、環境情報を利用する。
これらのマルチモダリティ機能は、効果的な意図学習のためにインテリジェントに融合されている。
論文 参考訳(メタデータ) (2023-05-01T22:37:31Z) - Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion [87.77727495366702]
歩行者の立ち止まりと予測の新たな課題を紹介します。
都市交通における歩行者の立ち寄り行動を明示的に研究するためのベンチマークであるTransをリリースする。
歩行者の歩行動作に注釈を付けたいくつかの既存のデータセットから構築し、さまざまなシナリオや行動を実現する。
論文 参考訳(メタデータ) (2022-03-04T18:39:31Z) - PSI: A Pedestrian Behavior Dataset for Socially Intelligent Autonomous
Car [47.01116716025731]
本稿では、IUPUI-CSRC Pedestrian Situated Intent(PSI)データと呼ばれる別のベンチマークデータセットを提案し、共有する。
最初の新しいラベルは、24人のドライバーによって達成されたエゴ車両の前を歩行者が横断する動的な意図の変化である。
2つ目は、歩行者の意図を推定し、その行動を予測するときに、運転者の推論プロセスに関するテキストベースの説明である。
論文 参考訳(メタデータ) (2021-12-05T15:54:57Z) - Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting [91.69900691029908]
我々は、個々の動きとシーン占有マップの両方を予測することを提唱する。
歩行者の相対的な空間情報を保存するScene-Actor Graph Neural Network (SA-GNN)を提案する。
2つの大規模な実世界のデータセットで、我々のシーン占有率予測が最先端のモーション予測手法よりも正確でより校正されていることを示した。
論文 参考訳(メタデータ) (2021-01-07T06:08:21Z) - Pedestrian Behavior Prediction for Automated Driving: Requirements,
Metrics, and Relevant Features [1.1888947789336193]
システムレベルアプローチによる自動走行の歩行者行動予測の要件を分析した。
人間の運転行動に基づいて、自動走行車の適切な反応パターンを導出する。
複数の文脈的手がかりを組み込んだ変分条件自動エンコーダに基づく歩行者予測モデルを提案する。
論文 参考訳(メタデータ) (2020-12-15T16:52:49Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Pedestrian Intention Prediction: A Multi-task Perspective [83.7135926821794]
グローバルに展開するためには、自動運転車は歩行者の安全を保証する必要がある。
本研究は歩行者の意図と視覚状態を共同で予測することでこの問題を解決しようとするものである。
この方法はマルチタスク学習アプローチにおけるリカレントニューラルネットワークである。
論文 参考訳(メタデータ) (2020-10-20T13:42:31Z) - Pedestrian Models for Autonomous Driving Part II: High-Level Models of
Human Behavior [12.627716603026391]
歩行者の存在下で自動運転車を計画するには、将来の振る舞いをモデル化する必要がある。
この調査は、最適な歩行行動には良いモデルがあるが、歩行者行動の高レベル心理学的・社会的モデリングは依然としてオープンな研究課題であることを示している。
論文 参考訳(メタデータ) (2020-03-26T14:55:18Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。