Fugu-MT 論文翻訳(概要): Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

論文の概要: Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

arxiv url: http://arxiv.org/abs/2604.02812v1
Date: Fri, 03 Apr 2026 07:27:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.372784
Title: Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision
Title（参考訳）: 合成ニューロ・シンボリック・スーパービジョンによる視覚言語モデルからの構造化ロボット政策の学習
Authors: Alessandro Adami, Tommaso Tubaldo, Marco Todescato, Ruggero Carli, Pietro Falco,
Abstract要約: 視覚言語モデル(VLM)は、最近、ロボットの動作にマルチモーダルな観察をマッピングする強力な能力を示した。現在のアプローチのほとんどは、不透明で分析が難しいエンドツーエンドのビズモータポリシに依存しています。本研究は,マルチモーダル知覚に基づく構造化ロボットポリシーを生成するために,基礎モデルをどのように専門化することができるかを検討する。
参考スコア（独自算出の注目度）: 39.03634103868044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have recently demonstrated strong capabilities in mapping multimodal observations to robot behaviors. However, most current approaches rely on end-to-end visuomotor policies that remain opaque and difficult to analyze, limiting their use in safety-critical robotic applications. In contrast, classical robotic systems often rely on structured policy representations that provide interpretability, modularity, and reactive execution. This work investigates how foundation models can be specialized to generate structured robot policies grounded in multimodal perception, bridging high-dimensional learning and symbolic control. We propose a neuro-symbolic approach in which a VLM synthesizes executable Behavior Tree policies from visual observations, natural language instructions, and structured system specifications. To enable scalable supervision without manual annotation, we introduce an automated pipeline that generates a synthetic multimodal dataset of domain-randomized scenes paired with instruction-policy examples produced by a foundation model. Real-world experiments on two robotic manipulators show that structured policies learned entirely from synthetic supervision transfer successfully to physical systems. The results indicate that foundation models can be adapted to produce interpretable and structured robot policies, providing an alternative to opaque end-to-end approaches for multimodal robot decision making.
Abstract（参考訳）: 視覚言語モデル(VLM)は、最近、ロボットの動作にマルチモーダルな観察をマッピングする強力な能力を示した。しかし、現在のほとんどのアプローチは、安全クリティカルなロボットアプリケーションでの使用を制限するため、不透明で分析が難しいエンドツーエンドのビズモータポリシーに依存している。対照的に、古典的なロボットシステムは多くの場合、解釈可能性、モジュール性、リアクティブ実行を提供する構造化されたポリシー表現に依存している。本研究では,マルチモーダルな知覚,高次元学習のブリッジング,象徴的制御を基礎とした構造的ロボットポリシーを,基礎モデルで生成する方法について検討する。本稿では,視覚的観察,自然言語命令,構造化システム仕様から,VLMが実行可能な行動木ポリシーを合成する,ニューロシンボリックアプローチを提案する。手動のアノテーションを使わずにスケーラブルな監視を可能にするため、ファンデーションモデルによって生成された命令-政治例と組み合わせたドメインランダム化されたシーンの合成マルチモーダルデータセットを生成する自動パイプラインを導入する。 2つのロボットマニピュレータの現実的な実験は、人工的な監督から学んだ構造化されたポリシーが、物理的システムに成功していることを示している。以上の結果から, 基本モデルは解釈可能かつ構造化されたロボットポリシーに適合し, マルチモーダルロボット意思決定における不透明なエンドツーエンドアプローチの代替となる可能性が示唆された。

論文の概要: Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

関連論文リスト