論文の概要: Can Reasons Help Improve Pedestrian Intent Estimation? A Cross-Modal Approach
- arxiv url: http://arxiv.org/abs/2411.13302v1
- Date: Wed, 20 Nov 2024 13:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:05.065008
- Title: Can Reasons Help Improve Pedestrian Intent Estimation? A Cross-Modal Approach
- Title(参考訳): 提案は歩行者の意図推定を改善するのに役立つか? : クロスモーダルアプローチ
- Authors: Vaishnavi Khindkar, Vineeth Balasubramanian, Chetan Arora, Anbumani Subramanian, C. V. Jawahar,
- Abstract要約: 歩行者の意図の背後にある直感的な推論を探索する新たな問題設定を導入する。
また,MINDREADと呼ばれる新しいマルチタスク学習フレームワークについても紹介する。
本実験では,意図予測の課題に対して,精度が5.6%,精度が7%,F1スコアが有意に向上した。
- 参考スコア(独自算出の注目度): 31.45105574930636
- License:
- Abstract: With the increased importance of autonomous navigation systems has come an increasing need to protect the safety of Vulnerable Road Users (VRUs) such as pedestrians. Predicting pedestrian intent is one such challenging task, where prior work predicts the binary cross/no-cross intention with a fusion of visual and motion features. However, there has been no effort so far to hedge such predictions with human-understandable reasons. We address this issue by introducing a novel problem setting of exploring the intuitive reasoning behind a pedestrian's intent. In particular, we show that predicting the 'WHY' can be very useful in understanding the 'WHAT'. To this end, we propose a novel, reason-enriched PIE++ dataset consisting of multi-label textual explanations/reasons for pedestrian intent. We also introduce a novel multi-task learning framework called MINDREAD, which leverages a cross-modal representation learning framework for predicting pedestrian intent as well as the reason behind the intent. Our comprehensive experiments show significant improvement of 5.6% and 7% in accuracy and F1-score for the task of intent prediction on the PIE++ dataset using MINDREAD. We also achieved a 4.4% improvement in accuracy on a commonly used JAAD dataset. Extensive evaluation using quantitative/qualitative metrics and user studies shows the effectiveness of our approach.
- Abstract(参考訳): 自律走行システムの重要性が増すにつれ、歩行者などの危険道路利用者(VRU)の安全を守る必要性が高まっている。
歩行者の意図を予測することは、視覚的特徴と運動的特徴の融合による二進的クロス/ノンクロス意図を予測するという、非常に難しい作業である。
しかし、このような予測を人間には理解できない理由で裏付ける努力は今のところない。
歩行者の意図の背後にある直感的な推論を探索する,新たな問題設定を導入することで,この問題に対処する。
特に,「WHY」の予測は「WHAT」を理解する上で非常に有用であることを示す。
そこで本研究では,歩行者の意図を多ラベルで説明・推論するPIE++データセットを提案する。
MINDREADという新しいマルチタスク学習フレームワークも導入した。これは歩行者の意図やその背景にある理由を予測するためのクロスモーダルな表現学習フレームワークを活用している。
MINDREAD を用いた PIE++ データセットの意図予測作業において, 総合的な実験により精度が5.6%, 7%向上し, F1スコアが得られた。
JAADデータセットの精度も4.4%向上しました。
定量的/定量的な指標とユーザスタディを用いた広範囲な評価は,我々のアプローチの有効性を示している。
関連論文リスト
- A low complexity contextual stacked ensemble-learning approach for pedestrian intent prediction [2.443659506850567]
現在の研究では、コンピュータビジョンと機械学習の進歩を活用して、ニアミスを予測する。
本研究は,歩行者の横断意図を予測するための文脈データを用いた,低複雑さアンサンブル学習手法を提案する。
異なるデータセットに対する実験は、最先端のアプローチと同様の歩行者意図予測性能を実現する。
論文 参考訳(メタデータ) (2024-10-16T21:02:24Z) - Context-aware Multi-task Learning for Pedestrian Intent and Trajectory Prediction [3.522062800701924]
我々は,過去の軌跡観測,局所的文脈特徴,グローバルな特徴を組み合わせることで,軌跡と意図の予測を学習するPTINetを紹介する。
提案手法の有効性は, JAAD と PIE を用いて評価した。
PTINetは、都市環境で歩行者とシームレスに対話できる自動システムの開発の道を開く。
論文 参考訳(メタデータ) (2024-07-24T11:06:47Z) - GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior
Prediction [12.613528624623514]
本研究は,自律運転における歩行者行動予測の文脈において,視覚言語モデル(VLM)の定量的および定性的な評価を行った最初のものである。
JAAD と WiDEVIEW を用いて GPT-4V の評価を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
論文 参考訳(メタデータ) (2023-11-24T18:02:49Z) - Context-empowered Visual Attention Prediction in Pedestrian Scenarios [0.0]
本稿では,歩行者の視覚的注意予測における3つの課題に対処する,新しいエンコーダ・デコーダアーキテクチャであるContext-SalNETを提案する。
まず、Context-SalNETは、エンコーダ・デコーダモデルの潜在空間における緊急性と安全性の優先性を明示的にモデル化する。
第2に,指数重み付き平均二乗誤差損失 (ew-MSE) を提案する。
論文 参考訳(メタデータ) (2022-10-30T19:38:17Z) - Discovering New Intents Using Latent Variables [51.50374666602328]
本稿では,意図の割り当てを潜伏変数として扱う意図を発見するための確率的フレームワークを提案する。
E-step, we conducting intents and explore the intrinsic structure of unlabeled data by the rear of intent assignments。
M段階において、ラベル付きデータの識別を最適化することにより、既知の意図から伝達される事前知識の忘れを緩和する。
論文 参考訳(メタデータ) (2022-10-21T08:29:45Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Pedestrian Intention Prediction: A Multi-task Perspective [83.7135926821794]
グローバルに展開するためには、自動運転車は歩行者の安全を保証する必要がある。
本研究は歩行者の意図と視覚状態を共同で予測することでこの問題を解決しようとするものである。
この方法はマルチタスク学習アプローチにおけるリカレントニューラルネットワークである。
論文 参考訳(メタデータ) (2020-10-20T13:42:31Z) - A Real-Time Predictive Pedestrian Collision Warning Service for
Cooperative Intelligent Transportation Systems Using 3D Pose Estimation [10.652350454373531]
歩行者方向認識(100.53 FPS)と意図予測(35.76 FPS)の2つのタスクに対して,リアルタイムな歩行者衝突警報サービス(P2CWS)を提案する。
提案手法は,提案したサイトに依存しない特徴により,複数のサイトに対する一般化を満足する。
提案したビジョンフレームワークは、トレーニングプロセスなしでTUDデータセットの行動認識タスクの89.3%の精度を実現する。
論文 参考訳(メタデータ) (2020-09-23T00:55:12Z) - Generalizable Pedestrian Detection: The Elephant In The Room [82.37430109152383]
既存の最先端の歩行者検出器は、同じデータセット上でトレーニングやテストを行う際には、非常によく機能するが、データセット間の評価では、十分に一般化されていない。
ウェブをクロールすることで収集される多様で高密度なデータセットは、歩行者検出のための事前学習の効率的な情報源であることを示す。
論文 参考訳(メタデータ) (2020-03-19T14:14:52Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。