Fugu-MT 論文翻訳(概要): Pedestrian Crossing Intent Prediction via Psychological Features and Transformer Fusion

論文の概要: Pedestrian Crossing Intent Prediction via Psychological Features and Transformer Fusion

arxiv url: http://arxiv.org/abs/2603.19533v1
Date: Fri, 20 Mar 2026 00:19:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:38.923393
Title: Pedestrian Crossing Intent Prediction via Psychological Features and Transformer Fusion
Title（参考訳）: 心理学的特徴と変圧器融合による歩行者交差入射予測
Authors: Sima Ashayer, Hoang H. Nguyen, Yu Liang, Mina Sartipi,
Abstract要約: 歩行者意図予測のための軽量・社会的情報アーキテクチャを提案する。ハイウェイエンコーダ、コンパクト 4-token Transformer、グローバルセルフアテンションプーリングを使って、4つの行動ストリーム(アテンション、位置、状況、相互作用)を融合する。提案手法は、モダリティに依存しない、ビジョン言語パイプラインとの統合が容易で、リソース制約のあるプラットフォーム上でのリスク認識の意図予測に適している。
参考スコア（独自算出の注目度）: 6.689013818004752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pedestrian intention prediction needs to be accurate for autonomous vehicles to navigate safely in urban environments. We present a lightweight, socially informed architecture for pedestrian intention prediction. It fuses four behavioral streams (attention, position, situation, and interaction) using highway encoders, a compact 4-token Transformer, and global self-attention pooling. To quantify uncertainty, we incorporate two complementary heads: a variational bottleneck whose KL divergence captures epistemic uncertainty, and a Mahalanobis distance detector that identifies distributional shift. Together, these components yield calibrated probabilities and actionable risk scores without compromising efficiency. On the PSI 1.0 benchmark, our model outperforms recent vision language models by achieving 0.9 F1, 0.94 AUC-ROC, and 0.78 MCC by using only structured, interpretable features. On the more diverse PSI 2.0 dataset, where, to the best of our knowledge, no prior results exist, we establish a strong initial baseline of 0.78 F1 and 0.79 AUC-ROC. Selective prediction based on Mahalanobis scores increases test accuracy by up to 0.4 percentage points at 80% coverage. Qualitative attention heatmaps further show how the model shifts its cross-stream focus under ambiguity. The proposed approach is modality-agnostic, easy to integrate with vision language pipelines, and suitable for risk-aware intent prediction on resource-constrained platforms.
Abstract（参考訳）: 歩行者の意図予測は、自動運転車が都市環境で安全に移動するためには正確である必要がある。歩行者意図予測のための軽量・社会的情報アーキテクチャを提案する。ハイウェイエンコーダ、コンパクト 4-token Transformer、グローバルセルフアテンションプーリングを使って、4つの行動ストリーム(アテンション、位置、状況、相互作用)を融合する。不確実性を定量化するために、KLのばらつきを捉えた変動ボトルネックと、分布シフトを識別するマハラノビス距離検出器の2つの相補的ヘッドを組み込んだ。これらのコンポーネントは、効率を損なうことなく、キャリブレーションされた確率と行動可能なリスクスコアを得る。 PSI 1.0ベンチマークでは、構造的・解釈可能な機能のみを用いて0.9 F1, 0.94 AUC-ROC, 0.78 MCCを達成し、近年の視覚言語モデルより優れています。より多様なPSI 2.0データセットでは、私たちの知る限り、事前の結果は存在せず、0.78 F1と0.79 AUC-ROCという強力な初期基準を確立します。マハラノビススコアに基づく選択予測は、80%のカバレッジでテスト精度を最大0.4ポイント向上させる。定性的アテンション・ヒートマップは、モデルがあいまいさの下でストリーム横断の焦点をどうシフトするかをさらに示す。提案手法は、モダリティに依存しない、ビジョン言語パイプラインとの統合が容易で、リソース制約のあるプラットフォーム上でのリスク認識の意図予測に適している。

関連論文リスト

AI-Driven Predictive Maintenance with Real-Time Contextual Data Fusion for Connected Vehicles: A Multi-Dataset Evaluation [0.0]
本稿では,V2X強化予測維持のためのシミュレーション検証型概念実証フレームワークを提案する。オンボードセンサーストリームと外部のコンテキスト信号を統合する。エッジ推論では、レイテンシを3.5sから1.0s以下に削減すると見積もられている。
論文参考訳（メタデータ） (2026-03-07T06:08:45Z)
d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models [45.27333046908981]
emphd-TreeRPOは、dLLMのための信頼できる強化学習フレームワークである。我々は,emphd-TreeRPOが複数の推論ベンチマークで大きく向上していることを示す。
論文参考訳（メタデータ） (2025-12-10T14:20:07Z)
A Conditional Diffusion Model for Probabilistic Prediction of Battery Capacity Degradation [0.0]
本稿では,この課題に対処するために,機能工学とディープラーニングを統合したDiffusion U-Net with Attention (CDUA)と呼ばれる新しい手法を提案する。提案手法では,時系列予測に拡散に基づく生成モデルを用い,注意機構を取り入れて予測性能を向上させる。実世界の車両データに対する実験的検証により、提案したCDUAモデルは相対平均絶対誤差(MAE)が0.94%、相対平均正方形誤差(RMSE)が1.14%、相対幅が3.74%であることを示す。
論文参考訳（メタデータ） (2025-10-20T10:56:28Z)
Leveraging Cellular Automata for Real-Time Wildfire Spread Modeling in California [0.0]
本研究では,重要な環境変数を組み込んだ細胞性オートマトン(CA)に基づく予測モデルを開発した。 2025年太平洋パラセード火災の火傷跡に対する混乱行列を用いたモデルの評価では, 0.860, 精度0.605, 総合F1スコア0.711を得た。
論文参考訳（メタデータ） (2025-10-10T02:31:57Z)
ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。学習タスクを再編成し、慣性参照からの残留偏差を予測する。 NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文参考訳（メタデータ） (2025-10-09T17:59:36Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文参考訳（メタデータ） (2024-09-04T16:47:16Z)
Quantifying Uncertainty in Motion Prediction with Variational Bayesian Mixture [17.78048571619575]
安全と堅牢性は、信頼できる自動運転車を開発する上で重要な要素である。本研究では,1つの移動物体に対する将来の軌跡の分布を記述する生成モデルSeNeVAを提案する。提案手法は,不確実性を定量化し,競争性能を向上しつつ,アウト・オブ・ディストリビューションデータを識別することができる。
論文参考訳（メタデータ） (2024-04-04T20:04:12Z)
MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers [41.56951365163419]
MixedNUTSは、ロバストな分類器の出力ロジットを3つのパラメータしか持たない非線形変換で処理する訓練不要の手法である。 MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。 CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの精度とほぼSOTAの堅牢性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-03T21:12:36Z)
Multi-Path Long-Term Vessel Trajectories Forecasting with Probabilistic Feature Fusion for Problem Shifting [8.970625329763559]
本稿では,AIS(Automatic Identification System, 自動識別システム)データに基づく多経路長期船体軌道予測の精度向上を課題とする。我々は,1～3時間のAISデータを入力として,深層自動エンコーダモデルとフェーズド・フレームワーク・アプローチを開発した。提案モデルでは, 平均誤差と中央値誤差をそれぞれ11km, 6kmと精度良く予測できることを実証した。
論文参考訳（メタデータ） (2023-10-29T09:15:22Z)
End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文参考訳（メタデータ） (2022-04-01T07:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。