論文の概要: Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation
- arxiv url: http://arxiv.org/abs/2604.03759v1
- Date: Sat, 04 Apr 2026 15:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.757015
- Title: Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation
- Title(参考訳): データ効率の良い実世界ロボットマニピュレーションのための視覚言語指導型ニューロシンボリック模倣学習
- Authors: Pierrick Lorang, Johannes Huemer, Timothy Duggan, Kai Goebel, Patrik Zips, Matthias Scheutz,
- Abstract要約: 本稿では,象徴的計画領域とデータ効率制御ポリシを自律的に構築する,スケーラブルなニューロシンボリック・フレームワークを提案する。
本手法は,実演をスキルに分割し,視覚言語モデル(VLM)を用いてスキルを分類する。
既知のコントローラは、シーン内の他のオブジェクトに1つのデモを投影することで、実世界のデータ拡張に活用することができる。
- 参考スコア(独自算出の注目度): 4.118262876469644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enabling robots to learn long-horizon manipulation tasks from a handful of demonstrations remains a central challenge in robotics. Existing neuro-symbolic approaches often rely on hand-crafted symbolic abstractions, semantically labeled trajectories or large demonstration datasets, limiting their scalability and real-world applicability. We present a scalable neuro-symbolic framework that autonomously constructs symbolic planning domains and data-efficient control policies from as few as one to thirty unannotated skill demonstrations, without requiring manual domain engineering. Our method segments demonstrations into skills and employs a Vision-Language Model (VLM) to classify skills and identify equivalent high-level states, enabling automatic construction of a state-transition graph. This graph is processed by an Answer Set Programming solver to synthesize a PDDL planning domain, which an oracle function exploits to isolate the minimal, task-relevant and target relative observation and action spaces for each skill policy. Policies are learned at the control reference level rather than at the raw actuator signal level, yielding a smoother and less noisy learning target. Known controllers can be leveraged for real-world data augmentation by projecting a single demonstration onto other objects in the scene, simultaneously enriching the graph construction process and the dataset for imitation learning. We validate our framework primarily on a real industrial forklift across statistically rigorous manipulation trials, and demonstrate cross-platform generality on a Kinova Gen3 robotic arm across two standard benchmarks. Our results show that grounding control learning, VLM-driven abstraction, and automated planning synthesis into a unified pipeline constitutes a practical path toward scalable, data-efficient, expert-free and interpretable neuro-symbolic robotics.
- Abstract(参考訳): ロボットを使って、いくつかのデモから長距離操作のタスクを学ぶことは、ロボット工学の重要な課題だ。
既存のニューロシンボリックアプローチは、しばしば手作りの象徴的抽象化、意味的にラベル付けされた軌跡や大規模なデモンストレーションデータセットに依存し、スケーラビリティと現実の応用性を制限する。
我々は、手動のドメイン工学を必要とせずに、1から30の未発表のスキル実証から、シンボリックプランニングドメインとデータ効率制御ポリシーを自律的に構築するスケーラブルなニューロシンボリックフレームワークを提案する。
提案手法は,実演をスキルに分割し,VLM(Vision-Language Model)を用いてスキルを分類し,等価な高レベルな状態を同定し,状態遷移グラフの自動構築を可能にする。
このグラフはAnswer Set Programmingソルバによって処理され、PDDL計画ドメインを合成する。これは、オラクル関数が、スキルポリシーごとに最小限、タスク関連およびターゲット相対観測およびアクション空間を分離するために利用するものである。
実際のアクチュエータ信号レベルよりも制御基準レベルでポリシが学習され、スムーズでノイズの少ない学習目標が得られる。
既知のコントローラは、シーン内の他のオブジェクトに1つのデモを投影することで、実世界のデータ拡張に利用することができ、グラフ構築プロセスと模倣学習のためのデータセットを同時に強化することができる。
我々は,統計学的に厳格な操作試験にまたがる実際の産業用フォークリフトの枠組みを検証するとともに,Kinova Gen3ロボットアームの2つの標準ベンチマークにおけるクロスプラットフォームの汎用性を実証する。
この結果から, 基盤制御学習, VLM による抽象化, および統合パイプラインへの自動計画合成が, スケーラブルでデータ効率のよい, 専門家のいない, 解釈可能なニューロシンボリック・ロボティクスへの実践的な道となることが示唆された。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - Transferable Task Execution from Pixels through Deep Planning Domain
Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。
DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。
これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文 参考訳(メタデータ) (2020-03-08T05:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。