論文の概要: SceneAware: Scene-Constrained Pedestrian Trajectory Prediction with LLM-Guided Walkability
- arxiv url: http://arxiv.org/abs/2506.14144v1
- Date: Tue, 17 Jun 2025 03:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.310475
- Title: SceneAware: Scene-Constrained Pedestrian Trajectory Prediction with LLM-Guided Walkability
- Title(参考訳): シーン認識:LPM誘導歩行性を用いた歩行者軌道予測
- Authors: Juho Bai, Inwook Shim,
- Abstract要約: SceneAwareは、軌跡予測精度を高めるためにシーン理解を明示的に組み込んだ新しいフレームワークである。
我々はTransformerベースのトラジェクトリエンコーダとViTベースのシーンエンコーダを組み合わせることで、時間的ダイナミクスと空間的制約の両方をキャプチャする。
本分析は, 各種歩行者運動において, モデルが一貫して良好に動作していることを示す。
- 参考スコア(独自算出の注目度): 3.130722489512822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate prediction of pedestrian trajectories is essential for applications in robotics and surveillance systems. While existing approaches primarily focus on social interactions between pedestrians, they often overlook the rich environmental context that significantly shapes human movement patterns. In this paper, we propose SceneAware, a novel framework that explicitly incorporates scene understanding to enhance trajectory prediction accuracy. Our method leverages a Vision Transformer~(ViT) scene encoder to process environmental context from static scene images, while Multi-modal Large Language Models~(MLLMs) generate binary walkability masks that distinguish between accessible and restricted areas during training. We combine a Transformer-based trajectory encoder with the ViT-based scene encoder, capturing both temporal dynamics and spatial constraints. The framework integrates collision penalty mechanisms that discourage predicted trajectories from violating physical boundaries, ensuring physically plausible predictions. SceneAware is implemented in both deterministic and stochastic variants. Comprehensive experiments on the ETH/UCY benchmark datasets show that our approach outperforms state-of-the-art methods, with more than 50\% improvement over previous models. Our analysis based on different trajectory categories shows that the model performs consistently well across various types of pedestrian movement. This highlights the importance of using explicit scene information and shows that our scene-aware approach is both effective and reliable in generating accurate and physically plausible predictions. Code is available at: https://github.com/juho127/SceneAware.
- Abstract(参考訳): ロボット工学や監視システムへの応用には,歩行者軌道の正確な予測が不可欠である。
既存のアプローチは、主に歩行者間の社会的相互作用に焦点を当てているが、人間の動きパターンを著しく形作る豊かな環境状況を見落としていることが多い。
本稿では,シーン理解を明示的に組み込んだ新しいフレームワークであるSceneAwareを提案し,軌道予測精度を向上させる。
本研究では、視覚変換器〜(ViT)シーンエンコーダを用いて静的シーン画像から環境コンテキストを処理し、マルチモーダル大規模言語モデル~(MLLM)は、トレーニング中にアクセス可能な領域と制限された領域を区別する2値歩行性マスクを生成する。
我々はTransformerベースのトラジェクトリエンコーダとViTベースのシーンエンコーダを組み合わせることで、時間的ダイナミクスと空間的制約の両方をキャプチャする。
この枠組みは、予測軌道が物理的境界を侵すのを阻止し、物理的に妥当な予測を確実にする衝突ペナルティ機構を統合する。
SceneAwareは決定型と確率型の両方で実装されている。
ETH/UCYベンチマークデータセットの総合的な実験により、我々のアプローチは最先端の手法よりも優れており、従来のモデルよりも50%以上改善されていることが示された。
異なる軌跡カテゴリーに基づく分析により, 各種歩行者運動において, モデルが一貫して良好に動作していることが示唆された。
このことは、明示的なシーン情報を使うことの重要性を強調し、私たちのシーン認識アプローチは、正確かつ物理的に妥当な予測を生成するのに効果的かつ信頼性があることを示す。
コードは、https://github.com/juho127/SceneAware.comで入手できる。
関連論文リスト
- COME: Adding Scene-Centric Forecasting Control to Occupancy World Model [18.815436110557112]
世界モデルは、環境力学をシミュレートし、合成データを生成する自律運転にとって重要である。
既存の方法では、エゴ車の動きを乱すのに苦労している(シーンの進化から振り返る)
本研究では,シーン中心の座標系を利用して環境変化をエゴ運動から分離することを提案する。
論文 参考訳(メタデータ) (2025-06-16T09:01:09Z) - Steerable Scene Generation with Post Training and Inference-Time Search [24.93360616245269]
シミュレーションのトレーニングロボットは、下流タスクの特定の課題を反映した多様な3Dシーンを必要とする。
ロボット操作のための現実的な環境を近似した手続きモデルを用いて大規模シーンデータを生成する。
5つの異なる環境にまたがる4400万のSE(3)シーンのデータセットをリリースします。
論文 参考訳(メタデータ) (2025-05-07T22:07:42Z) - Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。
両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-05T14:18:39Z) - ASTRA: A Scene-aware TRAnsformer-based model for trajectory prediction [15.624698974735654]
ASTRA (A Scene-aware TRAnsformer based model for trajectory prediction) は軽量な歩行者軌道予測モデルである。
我々は、U-Netベースの特徴抽出器を用いて、その潜在ベクトル表現を用いて、シーン表現をキャプチャし、グラフ対応トランスフォーマーエンコーダを用いて、ソーシャルインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2025-01-16T23:28:30Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - MoST: Multi-modality Scene Tokenization for Motion Prediction [39.97334929667033]
本稿では,視覚世界をシーン要素のコンパクトな集合にトークン化することを提案する。
次に、トレーニング済みの画像基盤モデルとLiDARニューラルネットワークを利用して、すべてのシーン要素をオープン語彙的にエンコードする。
提案した表現は,数百のトークンで多フレーム多モード観測を効率的に符号化することができる。
論文 参考訳(メタデータ) (2024-04-30T13:09:41Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:49:23Z) - MCENET: Multi-Context Encoder Network for Homogeneous Agent Trajectory
Prediction in Mixed Traffic [35.22312783822563]
都市混合交通圏における軌道予測は多くのインテリジェント交通システムにとって重要である。
本稿では,過去と未来の両方のシーンコンテキストを符号化して学習するマルチコンテキストネットワーク(MCENET)を提案する。
推定時間において,対象エージェントの過去の状況と動作情報と潜伏変数のサンプリングを組み合わせ,複数の現実的軌跡を予測する。
論文 参考訳(メタデータ) (2020-02-14T11:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。