論文の概要: GPT-4V Takes the Wheel: Evaluating Promise and Challenges for Pedestrian
Behavior Prediction
- arxiv url: http://arxiv.org/abs/2311.14786v1
- Date: Fri, 24 Nov 2023 18:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:29:11.724989
- Title: GPT-4V Takes the Wheel: Evaluating Promise and Challenges for Pedestrian
Behavior Prediction
- Title(参考訳): GPT-4V:歩行者行動予測のための約束と課題の評価
- Authors: Jia Huang, Peng Jiang, Alvika Gautam, and Srikanth Saripalli
- Abstract要約: GPT-4V(AD)は最先端のLarge-Language Model GPTの最新版である。
本報告では,公用データセットを用いた自律走行における歩行者行動予測のためのGPT-4V(AD)の可能性について,包括的に評価する。
- 参考スコア(独自算出の注目度): 12.613528624623514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing pedestrian behavior prediction methods rely primarily on deep neural
networks that utilize features extracted from video frame sequences. Although
these vision-based models have shown promising results, they face limitations
in effectively capturing and utilizing the dynamic spatio-temporal interactions
between the target pedestrian and its surrounding traffic elements, crucial for
accurate reasoning. Additionally, training these models requires manually
annotating domain-specific datasets, a process that is expensive,
time-consuming, and difficult to generalize to new environments and scenarios.
The recent emergence of Large Multimodal Models (LMMs) offers potential
solutions to these limitations due to their superior visual understanding and
causal reasoning capabilities, which can be harnessed through semi-supervised
training. GPT-4V(ision), the latest iteration of the state-of-the-art
Large-Language Model GPTs, now incorporates vision input capabilities. This
report provides a comprehensive evaluation of the potential of GPT-4V for
pedestrian behavior prediction in autonomous driving using publicly available
datasets: JAAD, PIE, and WiDEVIEW. Quantitative and qualitative evaluations
demonstrate GPT-4V(ision)'s promise in zero-shot pedestrian behavior prediction
and driving scene understanding ability for autonomous driving. However, it
still falls short of the state-of-the-art traditional domain-specific models.
Challenges include difficulties in handling small pedestrians and vehicles in
motion. These limitations highlight the need for further research and
development in this area.
- Abstract(参考訳): 既存の歩行者行動予測手法は、主にビデオフレームシーケンスから抽出された特徴を利用するディープニューラルネットワークに依存している。
これらの視覚ベースのモデルは有望な結果を示しているが、ターゲット歩行者とその周辺交通要素間の動的時空間的相互作用を効果的に捉え、活用するための制限に直面している。
さらに、これらのモデルのトレーニングには、コストが高く、時間がかかり、新しい環境やシナリオへの一般化が難しいプロセスである、ドメイン固有のデータセットを手動でアノテートする必要がある。
近年のLMM(Large Multimodal Models)の出現は、視覚的理解と因果推論能力が優れているため、これらの制限に対する潜在的な解決策を提供する。
GPT-4V(ision)は最先端のLarge-Language Model GPTの最新版である。
本報告は、JAAD、PIE、WiDEVIEWといった公開データセットを用いて、自動運転における歩行者行動予測におけるGPT-4Vの可能性を総合的に評価する。
GPT-4V(ision)によるゼロショット歩行者行動予測と自律走行におけるシーン理解能力の検証を行った。
しかし、依然として最先端のドメイン固有モデルには及ばない。
課題は、小さな歩行者や車両を動かせることの難しさである。
これらの制限は、この地域のさらなる研究と開発の必要性を強調している。
関連論文リスト
- Analysis over vision-based models for pedestrian action anticipation [1.1470070927586016]
本稿では,歩行者のコンテキストのイメージを入力機能として利用することに焦点を当てる。
標準CNNおよびTransformerモジュールを利用する複数の紙モデルアーキテクチャを提案する。
本稿では,歩行者行動予測の文脈における視覚に基づくトランスフォーマーモデルの説明可能性について考察する。
論文 参考訳(メタデータ) (2023-05-27T11:30:32Z) - Local and Global Contextual Features Fusion for Pedestrian Intention
Prediction [2.203209457340481]
我々は歩行者と交通状況の両方の視覚的特徴を分析し分析する。
グローバルな文脈を理解するために、位置、動き、環境情報を利用する。
これらのマルチモダリティ機能は、効果的な意図学習のためにインテリジェントに融合されている。
論文 参考訳(メタデータ) (2023-05-01T22:37:31Z) - Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion [87.77727495366702]
歩行者の立ち止まりと予測の新たな課題を紹介します。
都市交通における歩行者の立ち寄り行動を明示的に研究するためのベンチマークであるTransをリリースする。
歩行者の歩行動作に注釈を付けたいくつかの既存のデータセットから構築し、さまざまなシナリオや行動を実現する。
論文 参考訳(メタデータ) (2022-03-04T18:39:31Z) - PSI: A Pedestrian Behavior Dataset for Socially Intelligent Autonomous
Car [47.01116716025731]
本稿では、IUPUI-CSRC Pedestrian Situated Intent(PSI)データと呼ばれる別のベンチマークデータセットを提案し、共有する。
最初の新しいラベルは、24人のドライバーによって達成されたエゴ車両の前を歩行者が横断する動的な意図の変化である。
2つ目は、歩行者の意図を推定し、その行動を予測するときに、運転者の推論プロセスに関するテキストベースの説明である。
論文 参考訳(メタデータ) (2021-12-05T15:54:57Z) - Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting [91.69900691029908]
我々は、個々の動きとシーン占有マップの両方を予測することを提唱する。
歩行者の相対的な空間情報を保存するScene-Actor Graph Neural Network (SA-GNN)を提案する。
2つの大規模な実世界のデータセットで、我々のシーン占有率予測が最先端のモーション予測手法よりも正確でより校正されていることを示した。
論文 参考訳(メタデータ) (2021-01-07T06:08:21Z) - Pedestrian Behavior Prediction for Automated Driving: Requirements,
Metrics, and Relevant Features [1.1888947789336193]
システムレベルアプローチによる自動走行の歩行者行動予測の要件を分析した。
人間の運転行動に基づいて、自動走行車の適切な反応パターンを導出する。
複数の文脈的手がかりを組み込んだ変分条件自動エンコーダに基づく歩行者予測モデルを提案する。
論文 参考訳(メタデータ) (2020-12-15T16:52:49Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Pedestrian Intention Prediction: A Multi-task Perspective [83.7135926821794]
グローバルに展開するためには、自動運転車は歩行者の安全を保証する必要がある。
本研究は歩行者の意図と視覚状態を共同で予測することでこの問題を解決しようとするものである。
この方法はマルチタスク学習アプローチにおけるリカレントニューラルネットワークである。
論文 参考訳(メタデータ) (2020-10-20T13:42:31Z) - Pedestrian Models for Autonomous Driving Part II: High-Level Models of
Human Behavior [12.627716603026391]
歩行者の存在下で自動運転車を計画するには、将来の振る舞いをモデル化する必要がある。
この調査は、最適な歩行行動には良いモデルがあるが、歩行者行動の高レベル心理学的・社会的モデリングは依然としてオープンな研究課題であることを示している。
論文 参考訳(メタデータ) (2020-03-26T14:55:18Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。