論文の概要: Seeing is Believing (and Predicting): Context-Aware Multi-Human Behavior Prediction with Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.15957v1
- Date: Wed, 17 Dec 2025 20:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.820266
- Title: Seeing is Believing (and Predicting): Context-Aware Multi-Human Behavior Prediction with Vision Language Models
- Title(参考訳): 見ることは信じる(そして予測する):視覚言語モデルを用いたコンテキスト対応多言語行動予測
- Authors: Utsav Panchal, Yuchen Liu, Luigi Palmieri, Ilche Georgievski, Marco Aiello,
- Abstract要約: 本稿では,CAMP-VLM (Context-Aware Multi- Human Behavior Prediction):視覚言語モデル(VLM)に基づくフレームワークを提案する。
CAMP-VLMは、シーングラフからの視覚入力と空間認識からコンテキスト特徴を取り入れ、人間とシーンの相互作用の予測を強化する。
予測精度が66.9%まで向上する。
- 参考スコア(独自算出の注目度): 8.568706722040421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately predicting human behaviors is crucial for mobile robots operating in human-populated environments. While prior research primarily focuses on predicting actions in single-human scenarios from an egocentric view, several robotic applications require understanding multiple human behaviors from a third-person perspective. To this end, we present CAMP-VLM (Context-Aware Multi-human behavior Prediction): a Vision Language Model (VLM)-based framework that incorporates contextual features from visual input and spatial awareness from scene graphs to enhance prediction of humans-scene interactions. Due to the lack of suitable datasets for multi-human behavior prediction from an observer view, we perform fine-tuning of CAMP-VLM with synthetic human behavior data generated by a photorealistic simulator, and evaluate the resulting models on both synthetic and real-world sequences to assess their generalization capabilities. Leveraging Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO), CAMP-VLM outperforms the best-performing baseline by up to 66.9% in prediction accuracy.
- Abstract(参考訳): 人間の行動の正確な予測は、人口の多い環境で動く移動ロボットにとって不可欠である。
先行研究は、主に自我中心の視点から単一人間のシナリオにおける行動を予測することに焦点を当てているが、いくつかのロボットアプリケーションは、第三者の視点から複数の人間の行動を理解する必要がある。
この目的のために,CAMP-VLM (Context-Aware Multi- Human Behavior Prediction):視覚言語モデル(VLM)に基づくフレームワークを提案する。
観測者から見たマルチヒューマン行動予測に適したデータセットが欠如しているため、フォトリアリスティックシミュレータによって生成された人工人間行動データを用いてCAMP-VLMの微調整を行い、合成および実世界の両方のシーケンスで得られたモデルを評価し、それらの一般化能力を評価する。
SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を活用して、CAMP-VLMは予測精度を66.9%向上させる。
関連論文リスト
- Few-Shot Inference of Human Perceptions of Robot Performance in Social Navigation Scenarios [1.5415050466360671]
本稿では,大規模言語モデルによる数発の学習機能を活用し,ロボットがユーザのパフォーマンスに対する認識をいかに正確に予測できるかを改善することを提案する。
この作業は、ユーザ中心のフィードバックを通じて、スケーラブルな方法でロボットの動作を改善するための道を開く。
論文 参考訳(メタデータ) (2025-12-17T23:06:36Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [72.30099597103029]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Predicting Human Impressions of Robot Performance During Navigation Tasks [8.01980632893357]
本研究では,非言語行動手がかりと機械学習技術を用いて,ロボット行動に対する人々の印象を予測する可能性を検討する。
以上の結果から,表情だけでロボット性能の人的印象について有用な情報が得られることが示唆された。
教師付き学習技術は、ほとんどの場合、人間のロボット性能予測よりも優れていたため、有望であった。
論文 参考訳(メタデータ) (2023-10-17T21:12:32Z) - Neural Foundations of Mental Simulation: Future Prediction of Latent
Representations on Dynamic Scenes [3.2744507958793143]
我々は、目標駆動型モデリングアプローチと高密度神経生理学的データと人間の行動的読み出しを組み合わせることで、この問題を阻害する。
具体的には,豊かで倫理的に関連のある環境の将来の状態を予測するために,知覚認知ネットワークのいくつかのクラスを構築し,評価する。
これらのモデルクラス間での強い差別化は、さまざまな環境内と環境内の両方で、神経的および行動的データを予測できる能力である。
論文 参考訳(メタデータ) (2023-05-19T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。