論文の概要: Analysis over vision-based models for pedestrian action anticipation
- arxiv url: http://arxiv.org/abs/2305.17451v1
- Date: Sat, 27 May 2023 11:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:17:35.501143
- Title: Analysis over vision-based models for pedestrian action anticipation
- Title(参考訳): 歩行者行動予測のための視覚モデルの解析
- Authors: Lina Achaji, Julien Moreau, Fran\c{c}ois Aioun, Fran\c{c}ois
Charpillet
- Abstract要約: 本稿では,歩行者のコンテキストのイメージを入力機能として利用することに焦点を当てる。
標準CNNおよびTransformerモジュールを利用する複数の紙モデルアーキテクチャを提案する。
本稿では,歩行者行動予測の文脈における視覚に基づくトランスフォーマーモデルの説明可能性について考察する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Anticipating human actions in front of autonomous vehicles is a challenging
task. Several papers have recently proposed model architectures to address this
problem by combining multiple input features to predict pedestrian crossing
actions. This paper focuses specifically on using images of the pedestrian's
context as an input feature. We present several spatio-temporal model
architectures that utilize standard CNN and Transformer modules to serve as a
backbone for pedestrian anticipation. However, the objective of this paper is
not to surpass state-of-the-art benchmarks but rather to analyze the positive
and negative predictions of these models. Therefore, we provide insights on the
explainability of vision-based Transformer models in the context of pedestrian
action prediction. We will highlight cases where the model can achieve correct
quantitative results but falls short in providing human-like explanations
qualitatively, emphasizing the importance of investing in explainability for
pedestrian action anticipation problems.
- Abstract(参考訳): 自動運転車の前で人間の行動を予測することは難しい課題だ。
歩行者横断行動の予測に複数の入力特徴を組み合わせることでこの問題に対処するモデルアーキテクチャを提案している論文もいくつかある。
本稿では,歩行者のコンテクスト画像の入力特徴としての利用に着目した。
歩行者予測のバックボーンとして標準CNNとTransformerモジュールを利用する時空間モデルアーキテクチャを提案する。
しかし,本論文の目的は,最先端のベンチマークを上回ることではなく,これらのモデルの正および負の予測を分析することである。
そこで,歩行者行動予測の文脈における視覚に基づくトランスフォーマーモデルの説明可能性について考察する。
本稿では,歩行者行動予測問題に対する説明可能性への投資の重要性を強調しながら,人間的な説明を質的に提示する上で,モデルが正しい定量的結果が得られるケースを強調した。
関連論文リスト
- GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior
Prediction [12.613528624623514]
本研究は,自律運転における歩行者行動予測の文脈において,視覚言語モデル(VLM)の定量的および定性的な評価を行った最初のものである。
JAAD と WiDEVIEW を用いて GPT-4V の評価を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
論文 参考訳(メタデータ) (2023-11-24T18:02:49Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - PedFormer: Pedestrian Behavior Prediction via Cross-Modal Attention
Modulation and Gated Multitask Learning [10.812772606528172]
本研究では,エゴ中心の視点から,歩行者の将来の軌跡や横断行動を予測するために,異なるデータモダリティに依存する新しい枠組みを提案する。
本モデルでは, トラジェクトリとアクション予測の精度を, それぞれ22%, 13%向上した。
論文 参考訳(メタデータ) (2022-10-14T15:12:00Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion [87.77727495366702]
歩行者の立ち止まりと予測の新たな課題を紹介します。
都市交通における歩行者の立ち寄り行動を明示的に研究するためのベンチマークであるTransをリリースする。
歩行者の歩行動作に注釈を付けたいくつかの既存のデータセットから構築し、さまざまなシナリオや行動を実現する。
論文 参考訳(メタデータ) (2022-03-04T18:39:31Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Learning Sparse Interaction Graphs of Partially Observed Pedestrians for
Trajectory Prediction [0.3025231207150811]
マルチペデストリアン軌道予測は、非構造環境における群衆と相互作用する自律システムの必然的な安全要素である。
Gumbel Social Transformerを提案し、Edge Gumbel Selectorは、各ステップで部分的に観察された歩行者のスパースグラフをサンプリングする。
提案手法は,仮定によって生じる潜在的な問題を克服し,ベンチマーク評価における関連研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-15T00:45:11Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Multi-Modal Hybrid Architecture for Pedestrian Action Prediction [14.032334569498968]
本研究では,歩行者の横断行動を予測するために,環境から取得したさまざまな情報ソースを組み込んだ新しいマルチモーダル予測アルゴリズムを提案する。
既存の2次元歩行者行動ベンチマークと新たに注釈付けされた3次元運転データセットを用いて,提案モデルが歩行者横断予測における最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-16T15:17:58Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。