論文の概要: Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision
- arxiv url: http://arxiv.org/abs/2604.02812v1
- Date: Fri, 03 Apr 2026 07:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.372784
- Title: Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision
- Title(参考訳): 合成ニューロ・シンボリック・スーパービジョンによる視覚言語モデルからの構造化ロボット政策の学習
- Authors: Alessandro Adami, Tommaso Tubaldo, Marco Todescato, Ruggero Carli, Pietro Falco,
- Abstract要約: 視覚言語モデル(VLM)は、最近、ロボットの動作にマルチモーダルな観察をマッピングする強力な能力を示した。
現在のアプローチのほとんどは、不透明で分析が難しいエンドツーエンドのビズモータポリシに依存しています。
本研究は,マルチモーダル知覚に基づく構造化ロボットポリシーを生成するために,基礎モデルをどのように専門化することができるかを検討する。
- 参考スコア(独自算出の注目度): 39.03634103868044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently demonstrated strong capabilities in mapping multimodal observations to robot behaviors. However, most current approaches rely on end-to-end visuomotor policies that remain opaque and difficult to analyze, limiting their use in safety-critical robotic applications. In contrast, classical robotic systems often rely on structured policy representations that provide interpretability, modularity, and reactive execution. This work investigates how foundation models can be specialized to generate structured robot policies grounded in multimodal perception, bridging high-dimensional learning and symbolic control. We propose a neuro-symbolic approach in which a VLM synthesizes executable Behavior Tree policies from visual observations, natural language instructions, and structured system specifications. To enable scalable supervision without manual annotation, we introduce an automated pipeline that generates a synthetic multimodal dataset of domain-randomized scenes paired with instruction-policy examples produced by a foundation model. Real-world experiments on two robotic manipulators show that structured policies learned entirely from synthetic supervision transfer successfully to physical systems. The results indicate that foundation models can be adapted to produce interpretable and structured robot policies, providing an alternative to opaque end-to-end approaches for multimodal robot decision making.
- Abstract(参考訳): 視覚言語モデル(VLM)は、最近、ロボットの動作にマルチモーダルな観察をマッピングする強力な能力を示した。
しかし、現在のほとんどのアプローチは、安全クリティカルなロボットアプリケーションでの使用を制限するため、不透明で分析が難しいエンドツーエンドのビズモータポリシーに依存している。
対照的に、古典的なロボットシステムは多くの場合、解釈可能性、モジュール性、リアクティブ実行を提供する構造化されたポリシー表現に依存している。
本研究では,マルチモーダルな知覚,高次元学習のブリッジング,象徴的制御を基礎とした構造的ロボットポリシーを,基礎モデルで生成する方法について検討する。
本稿では,視覚的観察,自然言語命令,構造化システム仕様から,VLMが実行可能な行動木ポリシーを合成する,ニューロシンボリックアプローチを提案する。
手動のアノテーションを使わずにスケーラブルな監視を可能にするため、ファンデーションモデルによって生成された命令-政治例と組み合わせたドメインランダム化されたシーンの合成マルチモーダルデータセットを生成する自動パイプラインを導入する。
2つのロボットマニピュレータの現実的な実験は、人工的な監督から学んだ構造化されたポリシーが、物理的システムに成功していることを示している。
以上の結果から, 基本モデルは解釈可能かつ構造化されたロボットポリシーに適合し, マルチモーダルロボット意思決定における不透明なエンドツーエンドアプローチの代替となる可能性が示唆された。
関連論文リスト
- Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning [1.6641413441634143]
本稿では,モバイルロボットシステムにおけるタスクレベル計画の解釈のための新しい言語強化学習フレームワークを提案する。
このフレームワークはクローズドループアーキテクチャに従い、物理的環境との相互作用を通じて反復的なポリシー改善を可能にする。
提案手法は,実行不確実性下で複数段操作およびナビゲーションタスクを行う実移動ロボット上で検証される。
論文 参考訳(メタデータ) (2026-03-23T16:28:36Z) - Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots [5.993870098970107]
VLA(Vision-Language-Action)モデルは、実際のロボットのための言語ガイド付き汎用制御フレームワークとして提案されている。
本稿では,VLAモデルのソフト連続マニピュレータへの展開について述べる。
論文 参考訳(メタデータ) (2025-10-20T10:06:39Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。