論文の概要: Probing Prompt Design for Socially Compliant Robot Navigation with Vision Language Models
- arxiv url: http://arxiv.org/abs/2601.14622v1
- Date: Wed, 21 Jan 2026 03:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.87469
- Title: Probing Prompt Design for Socially Compliant Robot Navigation with Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた社会適応型ロボットナビゲーションのプロンプト設計
- Authors: Ling Xiao, Toshihiko Yamasaki,
- Abstract要約: 言語モデルは、ますますソーシャルロボットナビゲーションに使われている。
既存のベンチマークは、社会的に従順な行動のための急進的な設計を概ね見落としていた。
システムガイダンスとモチベーションフレーミングの2つの側面に沿ってプロンプトデザインを研究する。
- 参考スコア(独自算出の注目度): 31.097911935522674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are increasingly used for social robot navigation, yet existing benchmarks largely overlook principled prompt design for socially compliant behavior. This limitation is particularly relevant in practice, as many systems rely on small vision language models (VLMs) for efficiency. Compared to large language models, small VLMs exhibit weaker decision-making capabilities, making effective prompt design critical for accurate navigation. Inspired by cognitive theories of human learning and motivation, we study prompt design along two dimensions: system guidance (action-focused, reasoning-oriented, and perception-reasoning prompts) and motivational framing, where models compete against humans, other AI systems, or their past selves. Experiments on two socially compliant navigation datasets reveal three key findings. First, for non-finetuned GPT-4o, competition against humans achieves the best performance, while competition against other AI systems performs worst. For finetuned models, competition against the model's past self yields the strongest results, followed by competition against humans, with performance further influenced by coupling effects among prompt design, model choice, and dataset characteristics. Second, inappropriate system prompt design can significantly degrade performance, even compared to direct finetuning. Third, while direct finetuning substantially improves semantic-level metrics such as perception, prediction, and reasoning, it yields limited gains in action accuracy. In contrast, our system prompts produce a disproportionately larger improvement in action accuracy, indicating that the proposed prompt design primarily acts as a decision-level constraint rather than a representational enhancement.
- Abstract(参考訳): 言語モデルは、ますます社会ロボットナビゲーションに使われているが、既存のベンチマークは、社会的に従順な行動のためのプロンプトデザインを概ね見落としている。
この制限は、多くのシステムが効率のために小さな視覚言語モデル(VLM)に依存しているため、実際は特に関係がある。
大規模な言語モデルと比較すると、小さなVLMはより弱い意思決定能力を示し、正確なナビゲーションに効果的なプロンプト設計を重要視している。
人間の学習とモチベーションの認知理論にインスパイアされた私たちは、システムガイダンス(行動中心、推論指向、知覚推論のプロンプト)とモチベーションフレーミング(モデルが人間、他のAIシステム、あるいは過去の自分自身と競合する)という2つの側面に沿って、プロンプトデザインを研究する。
ソーシャルに準拠する2つのナビゲーションデータセットの実験では、3つの重要な発見が明らかになった。
第一に、非精細なGPT-4oでは、人間との競争が最高のパフォーマンスを達成する一方、他のAIシステムとの競争は最悪である。
微調整されたモデルでは、過去の自己に対する競争が最強の結果となり、続いて人間に対する競争が続き、パフォーマンスはプロンプト設計、モデル選択、データセット特性の結合効果にさらに影響される。
第二に、不適切なシステムプロンプト設計は直接微調整と比較して性能を著しく低下させる可能性がある。
第三に、直接微調整は知覚、予測、推論といった意味レベルの指標を大幅に改善する一方で、行動精度が制限される。
これとは対照的に,本システムでは,動作精度の大幅な向上を図り,提案したプロンプト設計が表現の強化よりも決定レベルの制約として機能することを示唆している。
関連論文リスト
- Phi-4-reasoning-vision-15B Technical Report [9.716062019697967]
コンパクトなオープンウェイトマルチモーダル推論モデルであるPhi-4-reasoning-vision-15Bを提案する。
私たちは、その開発を知らせるモチベーション、デザインの選択、実験、学習を共有しています。
論文 参考訳(メタデータ) (2026-03-04T12:16:53Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。