論文の概要: MUSON: A Reasoning-oriented Multimodal Dataset for Socially Compliant Navigation in Urban Environments
- arxiv url: http://arxiv.org/abs/2512.22867v1
- Date: Sun, 28 Dec 2025 10:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.257871
- Title: MUSON: A Reasoning-oriented Multimodal Dataset for Socially Compliant Navigation in Urban Environments
- Title(参考訳): MUSON:都市環境におけるソーシャル・コンピテント・ナビゲーションのためのマルチモーダル・データセット
- Authors: Zhuonan Liu, Xinyu Zhang, Zishuo Wang, Tomohito Kawabata, Xuesu Xiao, Ling Xiao,
- Abstract要約: 社会的に適合したナビゲーションは、安全かつ解釈可能な決定を保証するために、動的な歩行者と物理的な制約に対する構造的推論を必要とする。
既存のソーシャルナビゲーションデータセットは、しばしば明確な推論の監督を欠き、非常に長い尾のアクション分布を示す。
MUSONは,屋内および屋外の様々なキャンパスシーンで収集された短時間の社会ナビゲーションのためのマルチモーダルデータセットである。
- 参考スコア(独自算出の注目度): 13.259453585667382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Socially compliant navigation requires structured reasoning over dynamic pedestrians and physical constraints to ensure safe and interpretable decisions. However, existing social navigation datasets often lack explicit reasoning supervision and exhibit highly long-tailed action distributions, limiting models' ability to learn safety-critical behaviors. To address these issues, we introduce MUSON, a multimodal dataset for short-horizon social navigation collected across diverse indoor and outdoor campus scenes. MUSON adopts a structured five-step Chain-of-Thought annotation consisting of perception, prediction, reasoning, action, and explanation, with explicit modeling of static physical constraints and a rationally balanced discrete action space. Compared to SNEI, MUSON provides consistent reasoning, action, and explanation. Benchmarking multiple state-of-the-art Small Vision Language Models on MUSON shows that Qwen2.5-VL-3B achieves the highest decision accuracy of 0.8625, demonstrating that MUSON serves as an effective and reusable benchmark for socially compliant navigation. The dataset is publicly available at https://huggingface.co/datasets/MARSLab/MUSON
- Abstract(参考訳): 社会的に適合したナビゲーションは、安全かつ解釈可能な決定を保証するために、動的な歩行者と物理的な制約に対する構造的推論を必要とする。
しかし、既存のソーシャルナビゲーションデータセットは明確な推論の監督を欠くことが多く、非常に長い尾のアクション分布を示し、モデルが安全クリティカルな行動を学ぶ能力を制限する。
これらの課題に対処するために,屋内および屋外の様々なキャンパスシーンにまたがって収集された短時間の社会ナビゲーションのためのマルチモーダルデータセットであるMUSONを紹介した。
MUSONは、静的な物理的制約と合理的にバランスの取れた離散的な行動空間の明示的なモデリングにより、知覚、予測、推論、行動、説明からなる構造化された5段階のチェーン・オブ・サートアノテーションを採用する。
SNEIと比較すると、MUSONは一貫性のある推論、アクション、説明を提供する。
複数の最先端のSmall Vision Language Models on MUSONのベンチマークでは、Qwen2.5-VL-3Bが0.8625の判定精度を達成し、MUSONが社会に適合したナビゲーションの効果的な再利用可能なベンチマークとして機能していることが示されている。
データセットはhttps://huggingface.co/datasets/MARSLab/MUSONで公開されている。
関連論文リスト
- Bridging Perception and Reasoning: Dual-Pipeline Neuro-Symbolic Landing for UAVs in Cluttered Environments [3.2786408034656858]
NeuroSymLandは、非構造環境における自律着陸のためのニューロシンボリックフレームワークである。
これは、軽量基礎モデルの知覚的強みと象徴的推論の解釈可能性と検証可能性を組み合わせる。
NeuroSymLandは、最先端のベースラインに比べて高精度で、共変量シフトに対する強い堅牢性、効率性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-25T08:08:04Z) - VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - Offline Action-Free Learning of Ex-BMDPs by Comparing Diverse Datasets [87.62730694973696]
本稿では,エージェント間の制御可能な特徴ダイナミクスの違いを利用して表現を学習する,サンプル効率のよいアルゴリズムCRAFTを紹介する。
我々はCRAFTの性能を理論的に保証し、おもちゃの例でその実現可能性を示す。
論文 参考訳(メタデータ) (2025-03-26T22:05:57Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Graph2Kernel Grid-LSTM: A Multi-Cued Model for Pedestrian Trajectory
Prediction by Learning Adaptive Neighborhoods [10.57164270098353]
本稿では,歩行者地区がデザインに適応しうることを提案することによって,インタラクションモデリングの新しい視点を示す。
我々のモデルは、いくつかの公開テストされた監視ビデオに類似した特徴を照合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-03T19:05:48Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。