論文の概要: SocialNav-MoE: A Mixture-of-Experts Vision Language Model for Socially Compliant Navigation with Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2512.14757v1
- Date: Mon, 15 Dec 2025 14:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.725579
- Title: SocialNav-MoE: A Mixture-of-Experts Vision Language Model for Socially Compliant Navigation with Reinforcement Fine-Tuning
- Title(参考訳): SocialNav-MoE:強化ファインチューニングによるソーシャル・コンピテント・ナビゲーションのためのMixture-of-Experts Vision Language Model
- Authors: Tomohito Kawabata, Xinyu Zhang, Ling Xiao,
- Abstract要約: 人間の快適さ、社会的規範、文脈的適切さを考慮に入れた社会に順応したナビゲーションはいまだに探索されていない。
そこで我々は,ソーシャルに適合したナビゲーションと強化微調整のための,効率的なMixture-of-Experts視覚言語モデルSocialNav-MoEを提案する。
SNEIデータセットの実験では、SocialNav-MoEはナビゲーションの精度と効率のバランスが良好であることを実証している。
- 参考スコア(独自算出の注目度): 6.245382633570723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For robots navigating in human-populated environments, safety and social compliance are equally critical, yet prior work has mostly emphasized safety. Socially compliant navigation that accounts for human comfort, social norms, and contextual appropriateness remains underexplored. Vision language models (VLMs) show promise for this task; however, large-scale models incur substantial computational overhead, leading to higher inference latency and energy consumption, which makes them unsuitable for real-time deployment on resource-constrained robotic platforms. To address this issue, we investigate the effectiveness of small VLM and propose SocialNav-MoE, an efficient Mixture-of-Experts vision language model for socially compliant navigation with reinforcement fine-tuning (RFT). We further introduce a semantic similarity reward (SSR) to effectively leverage RFT for enhancing the decision-making capabilities. Additionally, we study the effectiveness of different small language model types (Phi, Qwen, and StableLM), routing strategies, and vision encoders (CLIP vs. SigLIP, frozen vs. fine-tuned). Experiments on the SNEI dataset demonstrate that SocialNav-MoE achieves an excellent balance between navigation accuracy and efficiency. The proposed SSR function is more effective than hard-level and character-level rewards. Source code will be released upon acceptance.
- Abstract(参考訳): 人間の生活環境をナビゲートするロボットにとって、安全と社会的コンプライアンスは等しく重要であるが、以前の作業は安全を強調してきた。
人間の快適さ、社会的規範、文脈的適切さを考慮に入れた社会に順応したナビゲーションはいまだに探索されていない。
視覚言語モデル(VLM)はこのタスクを約束するが、大規模なモデルでは計算オーバーヘッドが大きくなり、推論遅延とエネルギー消費が増加し、リソースに制約のあるロボットプラットフォームへのリアルタイムデプロイには適さない。
この問題に対処するため、小型VLMの有効性を検証し、強化微調整(RFT)を用いたソーシャル適合ナビゲーションのための、効率的なMixture-of-Experts視覚言語モデルSocialNav-MoEを提案する。
さらに、意思決定能力を高めるためにRTTを効果的に活用するための意味的類似性報酬(SSR)を導入する。
さらに、異なる小言語モデルタイプ(Phi、Qwen、StableLM)、ルーティング戦略、ビジョンエンコーダ(CLIP対SigLIP、フリーズ対微調整)の有効性について検討した。
SNEIデータセットの実験では、SocialNav-MoEはナビゲーションの精度と効率のバランスが良好であることを実証している。
提案したSSR関数は、ハードレベルやキャラクタレベルの報酬よりも効果的である。
ソースコードは受理時に公開される。
関連論文リスト
- LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating [47.62872797480247]
LISN-Benchは,言語指導型ソーシャルナビゲーションのシミュレーションに基づく最初のベンチマークである。
VLMエージェントがコストマップとコントローラパラメータを変調する高速な階層システムであるSocial-Nav-Modulatorを提案する。
本手法は,最も競争力のあるベースラインよりも63%以上高い91.3%の平均成功率を達成する。
論文 参考訳(メタデータ) (2025-12-10T18:54:30Z) - SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation [32.75496547879437]
ダイナミックで人間中心の環境でのソーシャルナビゲーションには、堅牢なシーン理解に基づく社会的に適合した決定が必要である。
近年のビジョン・ランゲージ・モデル (VLM) は、社会ロボットナビゲーションの曖昧な要求に沿う有望な能力を示している。
本稿では,ソーシャルナビゲーションシーン理解ベンチマーク(SocialNav-SUB)を紹介する。
論文 参考訳(メタデータ) (2025-09-10T16:47:00Z) - Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文 参考訳(メタデータ) (2025-07-15T05:37:24Z) - Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。
本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。
メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文 参考訳(メタデータ) (2024-03-22T23:12:28Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - SocNavGym: A Reinforcement Learning Gym for Social Navigation [0.0]
SocNavGymは、ソーシャルナビゲーションのための高度なシミュレーション環境である。
さまざまなタイプのソーシャルナビゲーションシナリオを生成することができる。
また、さまざまな手作りとデータ駆動のソーシャル報酬信号を扱うように設定することもできる。
論文 参考訳(メタデータ) (2023-04-27T11:29:02Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。