論文の概要: Emergent Neural Automaton Policies: Learning Symbolic Structure from Visuomotor Trajectories
- arxiv url: http://arxiv.org/abs/2603.25903v1
- Date: Thu, 26 Mar 2026 20:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.274512
- Title: Emergent Neural Automaton Policies: Learning Symbolic Structure from Visuomotor Trajectories
- Title(参考訳): 創発的ニューラル・オートマトン・ポリシー--ビジュモータ・トラジェクトリからシンボリック・構造を学ぶ
- Authors: Yiyuan Pan, Xusheng Luo, Hanjiang Hu, Peiqi Yu, Changliu Liu,
- Abstract要約: ENAP(Emergent Neural Automaton Policy)は、バイスモータのデモンストレーションから適応的に2段階のニューロシンボリックポリシーを実現するためのフレームワークである。
タスク構造を離散的な遷移と連続的な残差で明示的にモデル化することにより、ENAPはタスク固有のラベルを必要とせずに高いサンプル効率と解釈性を達成する。
- 参考スコア(独自算出の注目度): 14.475289544849007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling robot learning to long-horizon tasks remains a formidable challenge. While end-to-end policies often lack the structural priors needed for effective long-term reasoning, traditional neuro-symbolic methods rely heavily on hand-crafted symbolic priors. To address the issue, we introduce ENAP (Emergent Neural Automaton Policy), a framework that allows a bi-level neuro-symbolic policy adaptively emerge from visuomotor demonstrations. Specifically, we first employ adaptive clustering and an extension of the L* algorithm to infer a Mealy state machine from visuomotor data, which serves as an interpretable high-level planner capturing latent task modes. Then, this discrete structure guides a low-level reactive residual network to learn precise continuous control via behavior cloning (BC). By explicitly modeling the task structure with discrete transitions and continuous residuals, ENAP achieves high sample efficiency and interpretability without requiring task-specific labels. Extensive experiments on complex manipulation and long-horizon tasks demonstrate that ENAP outperforms state-of-the-art (SoTA) end-to-end VLA policies by up to 27% in low-data regimes, while offering a structured representation of robotic intent (Fig. 1).
- Abstract(参考訳): ロボットの学習を長距離タスクにスケールすることは、まだまだ難しい課題だ。
エンドツーエンドのポリシーは、効果的な長期的推論に必要な構造的前提を欠くことが多いが、伝統的なニューロシンボリック手法は手作りの象徴的先行に大きく依存している。
この問題に対処するため,両レベルのニューラル・シンボリック・ポリシーがバイスモータ・デモから適応的に出現することを可能にするENAP(Emergent Neural Automaton Policy)を導入する。
具体的には、まず適応クラスタリングとL*アルゴリズムの拡張を用いて、ビジュモータデータからMealy状態マシンを推定する。
そして、この離散構造は、低レベルの反応性残留ネットワークを誘導し、行動クローニング(BC)を介して正確な連続制御を学習する。
タスク構造を離散的な遷移と連続的な残差で明示的にモデル化することにより、ENAPはタスク固有のラベルを必要とせずに高いサンプル効率と解釈性を達成する。
複雑な操作と長期的タスクに関する広範な実験により、ENAPは、ロボットの意図を構造化した表現を提供しながら、ローデータ体制において、最先端のVLAポリシーを最大27%向上させる(第1図)。
関連論文リスト
- Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文 参考訳(メタデータ) (2026-02-15T23:22:50Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
CRISPは、階層的強化学習における不安定性に取り組むカリキュラム駆動のフレームワークである。
現在の低レベルプリミティブによって常に到達可能なサブゴールを生成するために、エキスパートのデモを適応的にリラベルする。
強い階層的ベースラインと平坦なベースラインに対して、成功率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。