論文の概要: MAction-SocialNav: Multi-Action Socially Compliant Navigation via Reasoning-enhanced Prompt Tuning
- arxiv url: http://arxiv.org/abs/2512.21722v1
- Date: Thu, 25 Dec 2025 15:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.521626
- Title: MAction-SocialNav: Multi-Action Socially Compliant Navigation via Reasoning-enhanced Prompt Tuning
- Title(参考訳): MAction-SocialNav:Reasoning-enhanced Prompt Tuningによるマルチアクション社会対応ナビゲーション
- Authors: Zishuo Wang, Xinyu Zhang, Zhuonan Liu, Tomohito Kawabata, Daeun Song, Xuesu Xiao, Ling Xiao,
- Abstract要約: 社会に適応したナビゲーションでは、人間中心の環境でロボットが安全かつ適切に移動する必要がある。
既存のほとんどの手法は、単一の正しいアクションを仮定することでこの問題を単純化し、現実世界の社会的不確実性を扱う能力を制限する。
我々は,行動のあいまいさに明示的に対処する,社会的に適合したナビゲーションのための効率的な視覚言語モデルであるMaction-SocialNavを提案する。
- 参考スコア(独自算出の注目度): 13.281040646486849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Socially compliant navigation requires robots to move safely and appropriately in human-centered environments by respecting social norms. However, social norms are often ambiguous, and in a single scenario, multiple actions may be equally acceptable. Most existing methods simplify this problem by assuming a single correct action, which limits their ability to handle real-world social uncertainty. In this work, we propose MAction-SocialNav, an efficient vision language model for socially compliant navigation that explicitly addresses action ambiguity, enabling generating multiple plausible actions within one scenario. To enhance the model's reasoning capability, we introduce a novel meta-cognitive prompt (MCP) method. Furthermore, to evaluate the proposed method, we curate a multi-action socially compliant navigation dataset that accounts for diverse conditions, including crowd density, indoor and outdoor environments, and dual human annotations. The dataset contains 789 samples, each with three-turn conversation, split into 710 training samples and 79 test samples through random selection. We also design five evaluation metrics to assess high-level decision precision, safety, and diversity. Extensive experiments demonstrate that the proposed MAction-SocialNav achieves strong social reasoning performance while maintaining high efficiency, highlighting its potential for real-world human robot navigation. Compared with zero-shot GPT-4o and Claude, our model achieves substantially higher decision quality (APG: 0.595 vs. 0.000/0.025) and safety alignment (ER: 0.264 vs. 0.642/0.668), while maintaining real-time efficiency (1.524 FPS, over 3x faster).
- Abstract(参考訳): 社会に適合したナビゲーションでは、ロボットは社会的規範を尊重することで、人間中心の環境で安全かつ適切に移動する必要がある。
しかし、社会的規範はしばしば曖昧であり、一つのシナリオでは複数の行動が同じように受け入れられるかもしれない。
既存のほとんどの手法は、単一の正しいアクションを仮定することでこの問題を単純化し、現実世界の社会的不確実性を扱う能力を制限する。
本研究では,行動のあいまいさに明示的に対処し,一つのシナリオ内で複数のもっともらしい行動を生成する,社会的に適合したナビゲーションのための効率的な視覚言語モデルであるMaction-SocialNavを提案する。
モデルの推論能力を高めるために,新しいメタ認知プロンプト(MCP)法を導入する。
さらに,提案手法を評価するために,集団密度,屋内・屋外環境,二重アノテーションなど,多様な状況を考慮した多行動対応ナビゲーションデータセットをキュレートする。
データセットには789のサンプルが含まれており、それぞれが3ターン会話を持ち、710のトレーニングサンプルと79のテストサンプルがランダム選択によって分割されている。
また、ハイレベルな意思決定精度、安全性、多様性を評価するために、5つの評価指標を設計する。
大規模な実験により、提案したMaction-SocialNavは、高い効率を維持しながら強力な社会的推論性能を達成し、現実世界のロボットナビゲーションの可能性を強調している。
ゼロショット GPT-4o や Claude と比較すると,実時間効率(1.524 FPS,3倍高速)を維持しながら,決定品質(APG:0.595 vs. 0.000/0.025)と安全性アライメント(ER:0.264 vs. 0.642/0.668)を実現している。
関連論文リスト
- Optimal-Horizon Social Robot Navigation in Heterogeneous Crowds [39.07961392770344]
環境の不確実性や複雑な人間とロボットの相互作用のため、密集した動的な群集の中で社会ロボットをナビゲートすることは困難である。
MPCは、強力なリアルタイムパフォーマンスを提供し、固定された予測地平線への依存は、環境の変化や社会的ダイナミクスへの適応性を制限している。
オンライン上でのMPCの視線を推定した状況に応じて最適化する最適水平社会ナビゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-28T07:09:15Z) - From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。
このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。
4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2026-02-09T18:46:12Z) - MUSON: A Reasoning-oriented Multimodal Dataset for Socially Compliant Navigation in Urban Environments [13.259453585667382]
社会的に適合したナビゲーションは、安全かつ解釈可能な決定を保証するために、動的な歩行者と物理的な制約に対する構造的推論を必要とする。
既存のソーシャルナビゲーションデータセットは、しばしば明確な推論の監督を欠き、非常に長い尾のアクション分布を示す。
MUSONは,屋内および屋外の様々なキャンパスシーンで収集された短時間の社会ナビゲーションのためのマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2025-12-28T10:41:39Z) - SocialNav-MoE: A Mixture-of-Experts Vision Language Model for Socially Compliant Navigation with Reinforcement Fine-Tuning [6.245382633570723]
人間の快適さ、社会的規範、文脈的適切さを考慮に入れた社会に順応したナビゲーションはいまだに探索されていない。
そこで我々は,ソーシャルに適合したナビゲーションと強化微調整のための,効率的なMixture-of-Experts視覚言語モデルSocialNav-MoEを提案する。
SNEIデータセットの実験では、SocialNav-MoEはナビゲーションの精度と効率のバランスが良好であることを実証している。
論文 参考訳(メタデータ) (2025-12-15T14:21:15Z) - Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文 参考訳(メタデータ) (2025-07-15T05:37:24Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning [0.4218593777811082]
本研究は, 政策分布不確実性推定のためのDRLナビゲーションフレームワークに, アレタリック, エピステミック, 予測不確実性推定を統合する新しいアプローチを導入する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
その結果, PPOにおけるODVおよびDropoutによるトレーニング性能が向上し, トレーニングシナリオが一般化に影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-16T18:49:38Z) - Principles and Guidelines for Evaluating Social Robot Navigation
Algorithms [44.51586279645062]
社会的ロボットナビゲーションは、動的エージェントとそのロボット行動の適切性に対する認識が関係しているため、評価が難しい。
コントリビューションには、(a)安全性、快適性、妥当性、丁寧さ、社会的能力、エージェント理解、活動性、文脈に対する応答性に関する原則、(b)メトリクスの使用のためのガイドライン、シナリオ、ベンチマーク、データセット、社会ナビゲーションを評価するためのシミュレーター、(c)様々なシミュレーター、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークなどが含まれます。
論文 参考訳(メタデータ) (2023-06-29T07:31:43Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。