Fugu-MT 論文翻訳(概要): UCB-driven Utility Function Search for Multi-objective Reinforcement Learning

論文の概要: UCB-driven Utility Function Search for Multi-objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.00410v2
Date: Thu, 16 May 2024 14:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 18:15:48.847480
Title: UCB-driven Utility Function Search for Multi-objective Reinforcement Learning
Title（参考訳）: UCBによる多目的強化学習のためのユーティリティ関数探索
Authors: Yucheng Shi, Alexandros Agapitos, David Lynch, Giorgio Cruciata, Cengis Hasan, Hao Wang, Yayu Yao, Aleksandar Milenovic,
Abstract要約: マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
参考スコア（独自算出の注目度）: 75.11267478778295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In Multi-objective Reinforcement Learning (MORL) agents are tasked with optimising decision-making behaviours that trade-off between multiple, possibly conflicting, objectives. MORL based on decomposition is a family of solution methods that employ a number of utility functions to decompose the multi-objective problem into individual single-objective problems solved simultaneously in order to approximate a Pareto front of policies. We focus on the case of linear utility functions parameterised by weight vectors w. We introduce a method based on Upper Confidence Bound to efficiently search for the most promising weight vectors during different stages of the learning process, with the aim of maximising the hypervolume of the resulting Pareto front. The proposed method is shown to outperform various MORL baselines on Mujoco benchmark problems across different random seeds. The code is online at: https://github.com/SYCAMORE-1/ucb-MOPPO.
Abstract（参考訳）: MORL(Multi-objective Reinforcement Learning)エージェントでは、複数の、おそらく矛盾する、目的間のトレードオフを最適化する。分解に基づくMORLは、多目的問題を個別の単目的問題に分解し、Paretoのポリシーを近似する。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。本稿では,学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。提案手法は,無作為種子間でのMujocoベンチマーク問題において,様々なMORLベースラインよりも優れた性能を示す。コードは、https://github.com/SYCAMORE-1/ucb-MOPPO.comで公開されている。

関連論文リスト

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文参考訳（メタデータ） (2026-02-28T16:25:22Z)
Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。 PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。 PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文参考訳（メタデータ） (2025-01-12T10:43:05Z)
Efficient Pareto Manifold Learning with Low-Rank Structure [31.082432589391953]
マルチタスク学習は本質的に多目的最適化問題である。そこで本研究では,複数の低ランク行列を主ネットワークに統合する手法を提案する。パラメータの数を著しく削減し、共有された特徴の抽出を容易にする。
論文参考訳（メタデータ） (2024-07-30T11:09:27Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
PMGDA: A Preference-based Multiple Gradient Descent Algorithm [12.600588000788214]
マルチタスク学習のような、多くの多目的機械学習アプリケーションにおいて、意思決定者の所定の好みに合ったソリューションを見つけることが望ましい。本稿では,意思決定者の好みに合ったソリューションを見つけるための,新しい予測と修正のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-14T11:27:31Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
A Scale-Independent Multi-Objective Reinforcement Learning with Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文参考訳（メタデータ） (2023-02-08T16:38:55Z)
Multi-Objective GFlowNets [59.16787189214784]
本稿では,多目的最適化の文脈において,多様な候補を生成する問題について検討する。薬物発見やマテリアルデザインといった機械学習の多くの応用において、目標は、競合する可能性のある目標のセットを同時に最適化する候補を生成することである。 GFlowNetsをベースとした多目的GFlowNets(MOGFNs)を提案する。
論文参考訳（メタデータ） (2022-10-23T16:15:36Z)
Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach [38.76462300149459]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文参考訳（メタデータ） (2022-10-23T05:54:26Z)
Pareto Manifold Learning: Tackling multiple tasks via ensembles of single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文参考訳（メタデータ） (2022-10-18T11:20:54Z)
Pareto Set Learning for Neural Multi-objective Combinatorial Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文参考訳（メタデータ） (2022-03-29T09:26:22Z)
Scalable Uni-directional Pareto Optimality for Multi-Task Learning with Constraints [4.4044968357361745]
制約下での最適化を含む多目的(MOO)問題に対するスケーラブルなMOOソルバを提案する。この重要な応用は、ニューラル分類タスクの高次元ランタイムを推定することである。
論文参考訳（メタデータ） (2021-10-28T21:35:59Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。