論文の概要: Reinforcement Learning for Long-Horizon Unordered Tasks: From Boolean to Coupled Reward Machines
- arxiv url: http://arxiv.org/abs/2510.27329v1
- Date: Fri, 31 Oct 2025 10:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.059351
- Title: Reinforcement Learning for Long-Horizon Unordered Tasks: From Boolean to Coupled Reward Machines
- Title(参考訳): 長軸非順序タスクの強化学習:ブールから結合リワードマシンへ
- Authors: Kristina Levina, Nikolaos Pappas, Athanasios Karapantelakis, Aneta Vulgarakis Feljan, Jendrik Seipp,
- Abstract要約: リワードマシン(RM)は、環境の報酬構造について強化学習エージェントに通知する。
RMを用いた学習は、サブタスクのセットを任意の順序で実行できるような長期水平問題に不適である。
本稿では,(1)複雑なタスクをコンパクトな形式で表現できるRM,(2)Agenda RMは残りのサブタスクを追跡するアジェンダに関連付けられ,(3)結合されたRMは各サブタスクに関連付けられた状態を持つ。
- 参考スコア(独自算出の注目度): 6.644469604216879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward machines (RMs) inform reinforcement learning agents about the reward structure of the environment. This is particularly advantageous for complex non-Markovian tasks because agents with access to RMs can learn more efficiently from fewer samples. However, learning with RMs is ill-suited for long-horizon problems in which a set of subtasks can be executed in any order. In such cases, the amount of information to learn increases exponentially with the number of unordered subtasks. In this work, we address this limitation by introducing three generalisations of RMs: (1) Numeric RMs allow users to express complex tasks in a compact form. (2) In Agenda RMs, states are associated with an agenda that tracks the remaining subtasks to complete. (3) Coupled RMs have coupled states associated with each subtask in the agenda. Furthermore, we introduce a new compositional learning algorithm that leverages coupled RMs: Q-learning with coupled RMs (CoRM). Our experiments show that CoRM scales better than state-of-the-art RM algorithms for long-horizon problems with unordered subtasks.
- Abstract(参考訳): リワードマシン(RM)は、環境の報酬構造について強化学習エージェントに通知する。
これは、RMにアクセスするエージェントがより少ないサンプルからより効率的に学習できるため、複雑な非マルコフタスクにとって特に有利である。
しかし、RMを用いた学習は、サブタスクのセットを任意の順序で実行できるような長期水平問題に不適である。
このような場合、未順序サブタスクの数に応じて学習する情報の量は指数関数的に増加する。
本稿では, RMの3つの一般化を導入することにより, この制限に対処する。(1) 数値RMは, 複雑なタスクをコンパクトな形式で表現することを可能にする。
2)アジェンダRMでは、状態は残りのサブタスクの完了を追跡するアジェンダと関連付けられている。
(3)結合RMは、アジェンダ内の各サブタスクに関連付けられた結合状態を有する。
さらに,複合RMを用いたQラーニング(Q-learning with coupled RMs)という,複合RMを活用した新しい構成学習アルゴリズムを提案する。
実験の結果,CoRMは非順序のサブタスクを持つ長時間水平問題に対して,最先端のRMアルゴリズムよりも拡張性が高いことがわかった。
関連論文リスト
- FORM: Learning Expressive and Transferable First-Order Logic Reward Machines [48.36822060760614]
Reward Machine(RM)は、強化学習における非マルコフ報酬に対処するための効果的なアプローチである。
本稿では,エッジのラベル付けに一階述語論理を用いる一階述語機械(texttFORM$s)を提案する。
我々は、従来のRM学習アプローチが失敗するタスクに対して、$texttFORM$sを効果的に学習できることを示します。
論文 参考訳(メタデータ) (2024-12-31T09:31:15Z) - LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [73.26238057915583]
本稿では,マルチアームバンディット問題として報酬モデル選択を行うLASeRを提案する。
LASeRは反復トレーニングを促進し、3つのデータセットに対してLlama-3-8Bの平均精度を絶対的に向上することを示す。
また、RAeRはRMスコアアンサンブルベースラインよりも72.69%のAlpacaEval勝利率を達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T16:46:38Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。