論文の概要: Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues
- arxiv url: http://arxiv.org/abs/2507.21161v1
- Date: Fri, 25 Jul 2025 07:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.008795
- Title: Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues
- Title(参考訳): フレームを超えて見る:生映像とマルチモーダルクイズを用いたゼロショット歩行者意図予測
- Authors: Pallavi Zambare, Venkata Nikhil Thanikella, Ying Liu,
- Abstract要約: 本稿では,Gemini 2.5 ProをベースとしたゼロショットアプローチであるBF-PIP(Beyond Pedestrian Intention Prediction)を紹介する。
構造化されたJAADメタデータに富んだ連続的なビデオクリップから直接、横断意図を推測する。
追加のトレーニングがなければ、BF-PIPは73%の予測精度を達成し、GPT-4Vベースラインを18%上回った。
- 参考スコア(独自算出の注目度): 2.5145802129902664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pedestrian intention prediction is essential for autonomous driving in complex urban environments. Conventional approaches depend on supervised learning over frame sequences and require extensive retraining to adapt to new scenarios. Here, we introduce BF-PIP (Beyond Frames Pedestrian Intention Prediction), a zero-shot approach built upon Gemini 2.5 Pro. It infers crossing intentions directly from short, continuous video clips enriched with structured JAAD metadata. In contrast to GPT-4V based methods that operate on discrete frames, BF-PIP processes uninterrupted temporal clips. It also incorporates bounding-box annotations and ego-vehicle speed via specialized multimodal prompts. Without any additional training, BF-PIP achieves 73% prediction accuracy, outperforming a GPT-4V baseline by 18 %. These findings illustrate that combining temporal video inputs with contextual cues enhances spatiotemporal perception and improves intent inference under ambiguous conditions. This approach paves the way for agile, retraining-free perception module in intelligent transportation system.
- Abstract(参考訳): 歩行者の意図予測は、複雑な都市環境での自動運転に不可欠である。
従来のアプローチは、フレームシーケンス上の教師あり学習に依存しており、新しいシナリオに適応するためには、広範囲な再訓練が必要である。
本稿では,Gemini 2.5 ProをベースとしたゼロショットアプローチであるBF-PIP(Beyond Frames Pedestrian Intention Prediction)を紹介する。
構造化されたJAADメタデータで強化された短い連続的なビデオクリップから直接、横断意図を推測する。
離散フレームで動作する GPT-4V ベースの手法とは対照的に、BF-PIP は未中断の時間クリップを処理する。
また、特別なマルチモーダルプロンプトを通じて、バウンディングボックスアノテーションとエゴ車両速度も組み込まれている。
追加のトレーニングがなければ、BF-PIPは73%の予測精度を達成し、GPT-4Vベースラインを18%上回った。
これらの結果から,時間的映像入力と文脈的手がかりの組み合わせは時空間知覚を高め,曖昧な条件下での意図推論を改善することが示唆された。
このアプローチは、インテリジェントトランスポートシステムにおいて、アジャイルでトレーニングなしの知覚モジュールの道を開いたものです。
関連論文リスト
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight [0.9012198585960443]
本稿では,空中データに対する高時間整合性を実現するために,リアルタイム推論に適した軽量なビデオセマンティックセマンティック・セマンティクス手法を提案する。
SSPは、カメラの動きを補うために、グローバルな登録アライメントによる効率的な画像分割モデルの予測を時間的に伝播する。
一般的なアプリケーションで提案される他のビデオ手法よりも、セグメンテーション品質と推論速度のトレードオフが優れている。
論文 参考訳(メタデータ) (2025-03-19T20:12:07Z) - Hydra-NeXt: Robust Closed-Loop Driving with Open-Loop Training [64.16445087751039]
Hydra-NeXtは、軌道予測、制御予測、軌道修正ネットワークを一つのモデルに統合する、新しいマルチブランチ計画フレームワークである。
Hydra-NeXt は22.98 DS と 17.49 SR を上回り、自動運転の大幅な進歩を示している。
論文 参考訳(メタデータ) (2025-03-15T07:42:27Z) - PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - PIP-Net: Pedestrian Intention Prediction in the Wild [10.351342371371675]
PIP-Netは、現実の都市シナリオにおいて、AVによる歩行者横断意図を予測するために設計された新しいフレームワークである。
我々は、異なるカメラマウントとセットアップ用に設計された2種類のPIP-Netを提供する。
提案モデルでは、繰り返し時間的注意に基づく解を用いて、最先端の性能を向上する。
実世界の自動運転シナリオにおいて,マルチカメラアノテーションを備えたUrban-PIPデータセットを初めて提示する。
論文 参考訳(メタデータ) (2024-02-20T08:28:45Z) - Anticipating Driving Behavior through Deep Learning-Based Policy
Prediction [66.344923925939]
我々は、通常のカメラで捉えたビデオフレームから得られる統合的な視覚特徴と、ポイント・クラウド・スキャナーから得られた奥行きの詳細を処理できるシステムを開発した。
このシステムは、車両の速度と操舵角度の両方を含む運転行動を予測するように設計されている。
評価の結果,テストシナリオの少なくとも半分において,予測値が有意な精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-20T17:38:55Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - LAformer: Trajectory Prediction for Autonomous Driving with Lane-Aware
Scene Constraints [16.861461971702596]
自律走行の軌道予測は、道路エージェントの運動性を連続的に推論し、シーン制約に従わなければならない。
既存の手法は通常、1段階の軌跡予測モデルに依存し、将来の軌跡を観測された軌跡と融合した風景情報に条件付ける。
本稿では、時間的に密度の高い車線推定モジュールを用いて、HDマップの上位高電位車線セグメントのみを選択するLAformerという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T16:34:16Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - TrouSPI-Net: Spatio-temporal attention on parallel atrous convolutions
and U-GRUs for skeletal pedestrian crossing prediction [1.911678487931003]
本研究では,歩行者の骨格の動態を二元交差意図にリンクさせることにより,都市交通環境における歩行者横断予測に対処する。
コンテクストフリーで軽量で軽量な予測器であるTrouSPI-Netを紹介する。
我々は、TrouSPI-Netを評価し、その性能を解析する。
論文 参考訳(メタデータ) (2021-09-02T13:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。