Fugu-MT 論文翻訳(概要): In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning

論文の概要: In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.16807v1
Date: Tue, 23 Jul 2024 19:17:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 15:32:29.565532
Title: In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning
Title（参考訳）: 多目的強化学習におけるアーキテクチャと損失関数の探索
Authors: Mikhail Terekhov, Caglar Gulcehre,
Abstract要約: 多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。 MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
参考スコア（独自算出の注目度）: 0.6650227510403052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-objective reinforcement learning (MORL) is essential for addressing the intricacies of real-world RL problems, which often require trade-offs between multiple utility functions. However, MORL is challenging due to unstable learning dynamics with deep learning-based function approximators. The research path most taken has been to explore different value-based loss functions for MORL to overcome this issue. Our work empirically explores model-free policy learning loss functions and the impact of different architectural choices. We introduce two different approaches: Multi-objective Proximal Policy Optimization (MOPPO), which extends PPO to MORL, and Multi-objective Advantage Actor Critic (MOA2C), which acts as a simple baseline in our ablations. Our proposed approach is straightforward to implement, requiring only small modifications at the level of function approximator. We conduct comprehensive evaluations on the MORL Deep Sea Treasure, Minecart, and Reacher environments and show that MOPPO effectively captures the Pareto front. Our extensive ablation studies and empirical analyses reveal the impact of different architectural choices, underscoring the robustness and versatility of MOPPO compared to popular MORL approaches like Pareto Conditioned Networks (PCN) and Envelope Q-learning in terms of MORL metrics, including hypervolume and expected utility.
Abstract（参考訳）: 多目的強化学習(MORL)は、実世界のRL問題の複雑さに対処するために不可欠である。しかし、MORLは、深層学習に基づく関数近似器を用いた不安定な学習ダイナミクスのために困難である。 MORLがこの問題を克服するためには、様々な価値に基づく損失関数を探索することが最も重要であった。我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。我々はPPOをMORLに拡張するMOPPO(Multi-objective Proximal Policy Optimization)と、Ablationsの単純なベースラインとして機能するMOA2C(Multi-objective Advantage Actor Critic)の2つのアプローチを紹介する。提案手法は実装が簡単で,関数近似器のレベルでの小さな変更しか必要としない。我々は,MORL深海宝,鉱山カルト,リーチャーの環境を総合的に評価し,MOPPOがパレートフロントを効果的に捉えていることを示す。パレート条件付きネットワーク(PCN)やエンベロープQ-ラーニング(Envelope Q-learning)といった一般的なMORLアプローチと比較して,MOPPOの堅牢性と汎用性を強調し,アーキテクチャ選択の影響を明らかにした。

関連論文リスト

Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。 PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。 PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文参考訳（メタデータ） (2025-01-12T10:43:05Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Addressing the issue of stochastic environments and local decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文参考訳（メタデータ） (2022-11-16T04:56:42Z)
Multi-objective Pointer Network for Combinatorial Optimization [10.286195356515355]
多目的最適化問題(MOCOP)は、様々な実応用に存在している。最適化問題に対する近似最適解を生成するために, 深部強化学習法 (DRL) が提案されている。本研究では,MOPN(Multi-objective Pointer Network)と呼ばれる単一モデル深層強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-25T14:02:34Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。