論文の概要: A Vision-and-Knowledge Enhanced Large Language Model for Generalizable Pedestrian Crossing Behavior Inference
- arxiv url: http://arxiv.org/abs/2601.00694v1
- Date: Fri, 02 Jan 2026 14:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.581019
- Title: A Vision-and-Knowledge Enhanced Large Language Model for Generalizable Pedestrian Crossing Behavior Inference
- Title(参考訳): 一般化可能な歩行者交叉行動推定のための視覚・知識強化大言語モデル
- Authors: Qingwen Pu, Kun Xie, Hong Yang, Guocong Zhai,
- Abstract要約: 本研究は歩行者横断推論のための視覚・知識強化フレームワークである歩行者横断LLM(PedX-LLM)を紹介する。
PedX-LLMは、歩行者横断推論をサイト固有のパターン認識から一般化可能な行動推論に変換する。
PedX-LLMは82.0%のバランスの取れた精度を達成する。
- 参考スコア(独自算出の注目度): 4.671159161186945
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing paradigms for inferring pedestrian crossing behavior, ranging from statistical models to supervised learning methods, demonstrate limited generalizability and perform inadequately on new sites. Recent advances in Large Language Models (LLMs) offer a shift from numerical pattern fitting to semantic, context-aware behavioral reasoning, yet existing LLM applications lack domain-specific adaptation and visual context. This study introduces Pedestrian Crossing LLM (PedX-LLM), a vision-and-knowledge enhanced framework designed to transform pedestrian crossing inference from site-specific pattern recognition to generalizable behavioral reasoning. By integrating LLaVA-extracted visual features with textual data and transportation domain knowledge, PedX-LLM fine-tunes a LLaMA-2-7B foundation model via Low-Rank Adaptation (LoRA) to infer crossing decisions. PedX-LLM achieves 82.0% balanced accuracy, outperforming the best statistical and supervised learning methods. Results demonstrate that the vision-augmented module contributes a 2.9% performance gain by capturing the built environment and integrating domain knowledge yields an additional 4.1% improvement. To evaluate generalizability across unseen environments, cross-site validation was conducted using site-based partitioning. The zero-shot PedX-LLM configuration achieves 66.9% balanced accuracy on five unseen test sites, outperforming the baseline data-driven methods by at least 18 percentage points. Incorporating just five validation examples via few-shot learning to PedX-LLM further elevates the balanced accuracy to 72.2%. PedX-LLM demonstrates strong generalizability to unseen scenarios, confirming that vision-and-knowledge-enhanced reasoning enables the model to mimic human-like decision logic and overcome the limitations of purely data-driven methods.
- Abstract(参考訳): 統計モデルから教師付き学習手法まで,既存の歩行者横断行動推定パラダイムは,限定的な一般化性を示し,新しい場所では不十分である。
LLM(Large Language Models)の最近の進歩は、数値的なパターン適合から、意味論的、文脈対応の振る舞い推論へのシフトをもたらすが、既存のLLMアプリケーションは、ドメイン固有の適応と視覚的コンテキストを欠いている。
本研究では,歩行者横断推定をサイト固有のパターン認識から一般化可能な行動推論へ変換する視覚・知識強化フレームワークであるPedX-LLMを紹介した。
LLaVAで抽出した視覚特徴をテキストデータと輸送領域の知識と統合することにより、PedX-LLMはローランド適応(LoRA)を介してLLaMA-2-7Bファンデーションモデルを微調整し、交差決定を推論する。
PedX-LLMは82.0%のバランスの取れた精度を達成する。
その結果、視覚拡張モジュールは、構築された環境を捕捉し、ドメイン知識を統合することで、パフォーマンスが2.9%向上し、さらに4.1%向上することを示した。
未確認環境における一般化性を評価するため,サイトベースパーティショニングを用いてクロスサイト検証を行った。
ゼロショットのPedX-LLM構成は、5つの未確認テストサイトで66.9%のバランスの取れた精度を達成し、ベースラインのデータ駆動方式を少なくとも18ポイント上回っている。
PedX-LLMに数ショットの学習を通じて5つの検証例を組み込むことで、バランスの取れた精度は72.2%に向上する。
PedX-LLMは、視覚と知識による推論によって、人間のような決定ロジックを模倣し、純粋にデータ駆動型のメソッドの制限を克服できることを示す。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Towards Locally Deployable Fine-Tuned Causal Large Language Models for Mode Choice Behaviour [1.8262547855491453]
LiTransMCは、このタスクのために開発された最初の微調整因果LLMである。
提案した3つの選好データセットに対して,11個のオープンアクセスLDM (1-12Bパラメータ) をベンチマークした。
本稿では,話題モデリングのためのBERTopicを用いたモデル生成推論と,新しい説明力指標を提案する。
論文 参考訳(メタデータ) (2025-07-29T02:03:37Z) - Reinforce LLM Reasoning through Multi-Agent Reflection [8.088795955922656]
DPSDPは,自己生成データを直接選好学習することで,アクタクリティカルなLLMシステムを反復的に洗練する強化学習アルゴリズムである。
理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。
例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
論文 参考訳(メタデータ) (2025-06-10T02:43:47Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning [4.902161835372679]
モデルに基づく探索計画を用いた不確実性を考慮したポリシー最適化のための新しいフレームワークを提案する。
政策最適化フェーズでは、不確実性駆動型探索政策を活用し、多様なトレーニングサンプルを積極的に収集する。
我々のアプローチは、様々な状態/行動空間と報酬構造を持つタスクに柔軟性と適用性を提供します。
論文 参考訳(メタデータ) (2025-03-26T01:07:35Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。