論文の概要: Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2602.09761v1
- Date: Tue, 10 Feb 2026 13:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.546352
- Title: Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のためのサブシンボリックRL環境における接地LTLタスク
- Authors: Matteo Pannacci, Andrea Fanti, Elena Umili, Roberto Capobianco,
- Abstract要約: サブシンボリックな環境下で時間的に拡張された指示に従うために強化学習エージェントを訓練する問題に対処する。
提案手法は,真のシンボル接地法に匹敵する性能を実現し,準記号環境における最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 2.3099144596725565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we address the problem of training a Reinforcement Learning agent to follow multiple temporally-extended instructions expressed in Linear Temporal Logic in sub-symbolic environments. Previous multi-task work has mostly relied on knowledge of the mapping between raw observations and symbols appearing in the formulae. We drop this unrealistic assumption by jointly training a multi-task policy and a symbol grounder with the same experience. The symbol grounder is trained only from raw observations and sparse rewards via Neural Reward Machines in a semi-supervised fashion. Experiments on vision-based environments show that our method achieves performance comparable to using the true symbol grounding and significantly outperforms state-of-the-art methods for sub-symbolic environments.
- Abstract(参考訳): 本研究では, 線形時間論理で表される複数の時間的拡張命令に従うために, 強化学習エージェントを訓練する際の課題に対処する。
以前のマルチタスクの作業は、主に、公式に現れる生の観測とシンボルの間のマッピングに関する知識に依存していた。
我々は、マルチタスクポリシーと同じ経験を持つシンボルグラウンドを共同でトレーニングすることで、この非現実的な仮定を廃止する。
シンボルグラウンドは、半教師付き方式でNeural Reward Machinesを介して生の観測とスパース報酬からのみ訓練される。
視覚に基づく環境実験により,本手法は真のシンボル接地法に匹敵する性能を達成し,準記号環境における最先端の手法を著しく上回ることを示す。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Neural Reward Machines [2.0755366440393743]
非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ニューラル・リワード・マシン(NRM)は,非記号的RLドメインにおける推論と学習の両方に使用できる,オートマタベースのニューロシンボリック・フレームワークである。
我々は,NRMがSG関数の知識を使わずに,先行知識を組み込むことができないディープRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:44:27Z) - Interpretable Brain-Inspired Representations Improve RL Performance on
Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。
我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T11:35:01Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - On the relationship between disentanglement and multi-task learning [62.997667081978825]
ハードパラメータ共有に基づくマルチタスク学習と絡み合いの関係について,より詳しく検討する。
マルチタスクニューラルネットワークトレーニングの過程において, 絡み合いが自然に現れることを示す。
論文 参考訳(メタデータ) (2021-10-07T14:35:34Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Anatomy of Catastrophic Forgetting: Hidden Representations and Task
Semantics [24.57617154267565]
ニューラルネットワークモデルにおいて,忘れることが表現に与える影響について検討する。
深い層が忘れる原因であることに気付きました。
また,CIFAR-100をベースとした,現実的な入力分布シフトを近似するタスクも導入する。
論文 参考訳(メタデータ) (2020-07-14T23:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。