Fugu-MT 論文翻訳(概要): Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning

論文の概要: Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning

arxiv url: http://arxiv.org/abs/2605.15975v2
Date: Mon, 18 May 2026 20:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:08.446627
Title: Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning
Title（参考訳）: 長期計画のための象徴的世界モデルに基づく二段階政策の学習
Authors: Dillon Z. Chen, Till Hofmann, Toryn Q. Klassen, Sheila A. McIlraith,
Abstract要約: 我々は、長期計画問題を確実に解決できる具体的AIエージェントを構築するという課題に取り組む。我々は、操作と制御のためのLL模倣学習の強みと、長期計画のためのHLシンボル抽象化を組み合わせる。我々はこれらのアイデアをBISONシステムで実装する。特に、LL実行を無視した場合、BISONのHLポリシーは1分以内で1万の関連オブジェクトでHL問題を解決することができる。
参考スコア（独自算出の注目度）: 16.43772461453855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We tackle the challenge of building embodied AI agents that can reliably solve long-horizon planning problems. Imitation learning from demonstrations has shown itself to be effective in training robots to solve a diversity of complex tasks requiring fine motor control and manipulation over low-level (LL), continuous environments. Yet, it remains a difficult endeavour to generate long-horizon plans from imitation learning alone. In contrast, high-level (HL), symbolic abstractions facilitate efficient and interpretable long-horizon planning. We propose to combine the strengths of LL imitation learning for manipulation and control, and HL symbolic abstractions for long-horizon planning. We realise this idea via \emph{bilevel policies} of the form $(π^{\mathrm{hl}}, π^{\mathrm{ll}})$, consisting of a neural policy $π^{\mathrm{ll}}$ learned from LL demonstrations, and an HL symbolic policy $π^{\mathrm{hl}}$ that is constructed from symbolic abstractions of the LL demonstrations combined with inductive generalisation. We implement these ideas in the BISON system. Experiments on extended MetaWorld benchmarks demonstrate that BISON generalises to long horizons and problems with greater numbers of objects than those solved by VLA and end-to-end methods, and is more time and memory efficient in training and inference. Notably, when ignoring LL execution, BISON's HL policies can solve HL problems with 10,000 relevant objects in under a minute. Project page: https://dillonzchen.github.io/bison
Abstract（参考訳）: 我々は、長期計画問題を確実に解決できる具体的AIエージェントを構築するという課題に取り組む。デモからの模倣学習は、低レベル(LL)連続環境上での運動制御と操作を必要とする複雑なタスクの多様性を解決するために、ロボットを訓練するのに効果的であることが示されている。しかし、模倣学習だけで長い水平計画を作成することは、依然として困難である。対照的に、高レベル(HL)の象徴的抽象化は効率的かつ解釈可能な長距離計画を促進する。本稿では,操作と制御のためのLL模倣学習の強みと,長期計画のためのHLシンボル抽象化を組み合わせることを提案する。 LL の証明から学習したニューラルポリシー $π^{\mathrm{ll}}$ と HL のシンボリックポリシー $π^{\mathrm{hl}}$ から成り立つ。我々はこれらのアイデアをBISONシステムで実装する。拡張されたMetaWorldベンチマークの実験では、BISONはVLAやエンドツーエンドの手法よりも長い地平線と多数のオブジェクトの問題を一般化し、トレーニングや推論においてより時間とメモリ効率が高いことが示されている。特に、LL実行を無視した場合、BISONのHLポリシーは1分以内で1万の関連オブジェクトでHL問題を解決することができる。プロジェクトページ: https://dillonzchen.github.io/bison

関連論文リスト

Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。 LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文参考訳（メタデータ） (2026-04-23T17:59:04Z)
LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。 LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文参考訳（メタデータ） (2026-02-25T03:33:39Z)
Think Small, Plan Smart: Minimalist Symbolic Abstraction and Heuristic Subspace Search for LLM-Guided Task Planning [19.421916137269275]
大規模言語モデル(LLM)は、複雑で曖昧な自然言語命令を実行可能な計画に変換するための有望なインターフェースを提供する。最近のフレームワークは、まずアクションモデル(Planning Domain Definition Language)を生成し、次に検索を適用することで、LCMとシンボリックプランナーを組み合わせる。抽象的シンボル表現とメタヒューリスティックな部分空間探索を並列かつ反復的に統合する2段階のLLMシンボリック計画フレームワークPLAHXを提案する。
論文参考訳（メタデータ） (2025-01-25T13:33:22Z)
Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation [7.668848364013772]
本稿では,RelePについて紹介する。 ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
論文参考訳（メタデータ） (2024-09-24T01:47:23Z)
From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。 methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文参考訳（メタデータ） (2024-05-08T04:14:06Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文参考訳（メタデータ） (2024-03-25T19:04:59Z)
Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文参考訳（メタデータ） (2022-06-21T19:01:19Z)
Transferable Task Execution from Pixels through Deep Planning Domain Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。 DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文参考訳（メタデータ） (2020-03-08T05:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。