論文の概要: Zero-Shot Instruction Following in RL via Structured LTL Representations
- arxiv url: http://arxiv.org/abs/2602.14344v1
- Date: Sun, 15 Feb 2026 23:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.963162
- Title: Zero-Shot Instruction Following in RL via Structured LTL Representations
- Title(参考訳): 構造化LTL表現によるRLのゼロショットインストラクション
- Authors: Mathias Jackermeier, Mattia Giuri, Jacques Cloete, Alessandro Abate,
- Abstract要約: マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
- 参考スコア(独自算出の注目度): 50.41415009303967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study instruction following in multi-task reinforcement learning, where an agent must zero-shot execute novel tasks not seen during training. In this setting, linear temporal logic (LTL) has recently been adopted as a powerful framework for specifying structured, temporally extended tasks. While existing approaches successfully train generalist policies, they often struggle to effectively capture the rich logical and temporal structure inherent in LTL specifications. In this work, we address these concerns with a novel approach to learn structured task representations that facilitate training and generalisation. Our method conditions the policy on sequences of Boolean formulae constructed from a finite automaton of the task. We propose a hierarchical neural architecture to encode the logical structure of these formulae, and introduce an attention mechanism that enables the policy to reason about future subgoals. Experiments in a variety of complex environments demonstrate the strong generalisation capabilities and superior performance of our approach.
- Abstract(参考訳): マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定において、線形時間論理(LTL)は、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功したが、LTL仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
本研究では,これらの課題を,学習と一般化を容易にする構造化されたタスク表現を学習するための新しいアプローチで解決する。
提案手法は,タスクの有限オートマトンから構築したブール式列に関するポリシーを定めている。
本稿では,これらの公式の論理構造を符号化する階層型ニューラルアーキテクチャを提案する。
様々な複雑な環境における実験は、我々のアプローチの強力な一般化能力と優れた性能を示す。
関連論文リスト
- Semantically Labelled Automata for Multi-Task Reinforcement Learning with LTL Instructions [61.479946958462754]
エージェントが単一のユニバーサルポリシーを学習する環境であるマルチタスク強化学習(RL)について検討する。
本稿では,新世代の意味翻訳を利用したタスク埋め込み手法を提案する。
論文 参考訳(メタデータ) (2026-02-06T14:46:27Z) - PlatoLTL: Learning to Generalize Across Symbols in LTL Instructions for Multi-Task RL [55.58188508467081]
線形時間論理(LTL)は、構造的、時間的に拡張されたタスクをRLエージェントに指定するための強力な形式である。
ここでは, ゼロショットのポリシーを公式構造にまたがるだけでなく, 命題にまたがってパラメトリックに一般化できる新しいアプローチであるPlatoLTLを提案する。
論文 参考訳(メタデータ) (2026-01-30T12:11:55Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Neurosymbolic AI for Enhancing Instructability in Generative AI [7.4348066967005275]
生成AIは、テキスト、画像、音楽間でコンテンツ生成を変換し、プロンプトを通じて指示に従う能力を示した。
本稿では,ニューロシンボリックAIがLarge Language Models(LLMs)のインストラクタビリティを高めるためのより良い経路を提供する理由を考察する。
ニューロシンボリックアプローチによってタスク実行の信頼性とコンテキスト認識が向上し,LLMが動的に解釈し,より広い範囲の教育コンテキストに対応し,より精度と柔軟性が向上することを示す。
論文 参考訳(メタデータ) (2024-07-26T13:15:50Z) - In a Nutshell, the Human Asked for This: Latent Goals for Following
Temporal Specifications [16.9640514047609]
時間論理(TL)で表されるOOD(out-of Distribution)マルチタスク命令を満たすことを目標とするエージェント構築の問題に対処する。
近年の研究では、深層学習アーキテクチャがDRLエージェントにTLのOODタスクを解くための重要な特徴であることを示す。
本稿では,人間の指示と環境からの現在の観察の両方を考慮し,エージェントに現在の目標の潜在表現を誘導する新しいディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-18T16:53:31Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。