論文の概要: Multi-action Tangled Program Graphs for Multi-task Reinforcement Learning with Continuous Control
- arxiv url: http://arxiv.org/abs/2604.25369v1
- Date: Tue, 28 Apr 2026 08:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.775542
- Title: Multi-action Tangled Program Graphs for Multi-task Reinforcement Learning with Continuous Control
- Title(参考訳): 連続制御によるマルチタスク強化学習のためのマルチアクション型プログラムグラフ
- Authors: Quentin Vacher, Nicolas Beuve, Mickaël Dardaillon, Karol Desnos,
- Abstract要約: Gymnasium の MuJoCo Half Cheetah に基づく新しいベンチマークを提案する。
本研究は, このマルチタスクのユースケースにおいて, 語彙選択と組み合わせた場合の優位性を実証するものである。
さらに、進化したグラフの解釈可能性について検討し、モデルの決定フローが完全に解釈可能であることを示した。
- 参考スコア(独自算出の注目度): 0.23332469289621782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few decades, machine learning has been widely used to learn complex tasks. Reinforcement Learning (RL), inspired by human behavior, is a great example, as it involves developing specific behaviours for specific tasks. To further challenge algorithms, Multi-Task RL (MTRL) environments have been introduced, requiring a single model to learn multiple behaviors. The Tangled Program Graph (TPG) algorithm is a Genetic Programming (GP) algorithm designed for discrete MTRL environments. Recently, the MAPLE algorithm has been proposed, as another GP algorithm that achieves high results in single task continuous RL environments. A variation of the TPG is proposed alongside MAPLE, named Multi-Action TPG (MATPG) that aggregates MAPLE agents, and creates a control flow to activate them. Initially tested on single task RL environments only, MATPG achieved similar results to MAPLE. In this work, we present a new benchmark based on the MuJoCo Half Cheetah from Gymnasium. This benchmark features five distinct obstacles that are randomly positioned in front of the agent, each of which demands a unique behavior. This benchmark serves as a use case for MATPG, to prove its ability as a GP solution for continuous MTRL environments. Our experiments demonstrate its superiority in this multi-task use case when combined with lexicase selection. Furthermore, we examine the interpretability of the evolved graph, revealing that the decision flow of the model is fully interpretable.
- Abstract(参考訳): 過去数十年間、機械学習は複雑なタスクを学ぶために広く使われてきた。
強化学習(Reinforcement Learning, RL)は、人間の行動にインスパイアされた優れた例であり、特定のタスクのための特定の行動を開発する。
さらにアルゴリズムに挑戦するために、Multi-Task RL (MTRL)環境が導入された。
Tangled Program Graph (TPG) アルゴリズムは、離散MTRL環境向けに設計された遺伝的プログラミング(GP)アルゴリズムである。
近年,単一タスク連続RL環境において高い結果が得られるGPアルゴリズムとしてMAPLEアルゴリズムが提案されている。
MAPLEエージェントを集約し、それらを活性化するための制御フローを生成するMulti-Action TPG(MATPG)が提案されている。
当初は単一のタスクRL環境でのみテストされていたが、MATPGはMAPLEと同様の結果を得た。
本稿では,Gymnasium の MuJoCo Half Cheetah に基づく新しいベンチマークを提案する。
このベンチマークでは、5つの異なる障害がエージェントの前にランダムに配置され、それぞれがユニークな振る舞いを要求する。
このベンチマークは、連続MTRL環境におけるGPソリューションとしての能力を証明するために、MATPGのユースケースとして機能する。
本研究は, このマルチタスクのユースケースにおいて, 語彙選択と組み合わせた場合の優位性を実証するものである。
さらに、進化したグラフの解釈可能性について検討し、モデルの決定フローが完全に解釈可能であることを示した。
関連論文リスト
- MultiGA: Leveraging Multi-Source Seeding in Genetic Algorithms [8.975943388046058]
大規模言語モデル(LLM)は、複雑なタスクに対処するために研究領域で広く使われているが、その性能は目前のタスクによって大きく異なる可能性がある。
複雑な自然言語処理や推論問題に遺伝的アルゴリズムの原則を適用した新しいアプローチであるMultiGAを導入する。
我々は,テキストからコードへの生成タスク,旅行計画,大学院レベルの科学問題に対するGPQAベンチマーク,BBQバイアスベンチマークを用いて,我々のアプローチをベンチマークする。
論文 参考訳(メタデータ) (2025-11-21T21:47:33Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Genetic multi-armed bandits: a reinforcement learning approach for
discrete optimization via simulation [0.0]
本稿では,マルチアームバンディットの強化学習領域とランダム検索戦略を組み合わせて,シミュレーションによる離散最適化問題の解法を提案する。
本研究の目的は,多腕バンディットの特性と遺伝的アルゴリズムの高次元解空間処理能力を組み合わせることである。
論文 参考訳(メタデータ) (2023-02-15T14:46:19Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。