論文の概要: One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.01561v2
- Date: Tue, 12 Aug 2025 22:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.551029
- Title: One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning
- Title(参考訳): 一度に1つのサブゴール:マルチタスク強化学習における任意線形時間論理要求へのゼロショット一般化
- Authors: Zijian Guo, İlker Işık, H. M. Sabbir Ahmad, Wenchao Li,
- Abstract要約: 複雑で時間的に拡張されたタスク目標と安全制約への一般化は、強化学習(RL)における重要な課題である。
本稿では,任意の仕様に対してゼロショットの一般化を可能にするGenZ-LTLを提案する。
- 参考スコア(独自算出の注目度): 3.5886171069912938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizing to complex and temporally extended task objectives and safety constraints remains a critical challenge in reinforcement learning (RL). Linear temporal logic (LTL) offers a unified formalism to specify such requirements, yet existing methods are limited in their abilities to handle nested long-horizon tasks and safety constraints, and cannot identify situations when a subgoal is not satisfiable and an alternative should be sought. In this paper, we introduce GenZ-LTL, a method that enables zero-shot generalization to arbitrary LTL specifications. GenZ-LTL leverages the structure of B\"uchi automata to decompose an LTL task specification into sequences of reach-avoid subgoals. Contrary to the current state-of-the-art method that conditions on subgoal sequences, we show that it is more effective to achieve zero-shot generalization by solving these reach-avoid problems \textit{one subgoal at a time} through proper safe RL formulations. In addition, we introduce a novel subgoal-induced observation reduction technique that can mitigate the exponential complexity of subgoal-state combinations under realistic assumptions. Empirical results show that GenZ-LTL substantially outperforms existing methods in zero-shot generalization to unseen LTL specifications.
- Abstract(参考訳): 複雑で時間的に拡張されたタスク目標と安全性の制約への一般化は、強化学習(RL)において重要な課題である。
線形時間論理(LTL)は、そのような要件を規定する統一的な形式を提供するが、既存の手法は、ネストした長距離タスクや安全制約を扱う能力に制限されており、サブゴールが満足できない状況や代替手段を求めることができない。
本稿では,任意のLTL仕様に対してゼロショットの一般化を可能にするGenZ-LTLを提案する。
GenZ-LTL は B\ uchi オートマトンの構造を利用して LTL タスク仕様をリーチアビドサブゴールのシーケンスに分解する。
サブゴール列を条件とした現在の最先端手法とは対照的に、適切な安全なRLの定式化により、これらのリーチエイド問題 \textit{one subgoal at a time} を解くことにより、ゼロショットの一般化がより効果的であることを示す。
さらに,本研究では,現実的な仮定の下でのサブゴール-状態結合の指数関数的複雑性を緩和する,新しいサブゴール誘導観測低減手法を提案する。
実験結果から、GenZ-LTLはゼロショットの一般化において既存の手法よりもかなり優れており、未確認のLTL仕様であることがわかった。
関連論文リスト
- Toward Robust Non-Transferable Learning: A Survey and Benchmark [51.52542476904985]
非伝達学習(NTL)は、ディープラーニングモデルの一般化能力を再構築することを目的とした課題である。
NTLの性能とロバスト性を評価する最初のベンチマークであるNTLBenchを紹介する。
我々はNTLの実践的応用と今後の方向性と課題について論じる。
論文 参考訳(メタデータ) (2025-02-19T10:12:19Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications [2.496282558123411]
本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。
基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
論文 参考訳(メタデータ) (2022-10-03T18:32:20Z) - Reinforcement Learning for General LTL Objectives Is Intractable [10.69663517250214]
我々は、マルコフ決定プロセス(PACMDP)フレームワークにおいて、おそらく正しい学習の下で問題を定式化する。
この結果から, 強化学習アルゴリズムでは, 学習ポリシーの性能に対するPAC-MDP保証を得ることは不可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-24T18:26:13Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。