論文の概要: A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis
- arxiv url: http://arxiv.org/abs/2302.04179v1
- Date: Wed, 8 Feb 2023 16:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 15:36:39.353290
- Title: A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis
- Title(参考訳): 収束解析を用いたスケール独立多目的強化学習
- Authors: Mohsen Amidzadeh
- Abstract要約: 多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many sequential decision-making problems need optimization of different
objectives which possibly conflict with each other. The conventional way to
deal with a multi-task problem is to establish a scalar objective function
based on a linear combination of different objectives. However, for the case of
having conflicting objectives with different scales, this method needs a
trial-and-error approach to properly find proper weights for the combination.
As such, in most cases, this approach cannot guarantee an optimal Pareto
solution. In this paper, we develop a single-agent scale-independent
multi-objective reinforcement learning on the basis of the Advantage
Actor-Critic (A2C) algorithm. A convergence analysis is then done for the
devised multi-objective algorithm providing a convergence-in-mean guarantee. We
then perform some experiments over a multi-task problem to evaluate the
performance of the proposed algorithm. Simulation results show the superiority
of developed multi-objective A2C approach against the single-objective
algorithm.
- Abstract(参考訳): 多くのシーケンシャルな意思決定問題は、異なる目的を最適化する必要がある。
マルチタスク問題に対処する従来の方法は、異なる目的の線形結合に基づいてスカラー目的関数を確立することである。
しかし、異なるスケールで相反する目的を持つ場合、この手法は組み合わせの適切な重みを適切に見つけるために試行錯誤のアプローチを必要とする。
したがって、ほとんどの場合、このアプローチは最適パレート解を保証することはできない。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
次に,提案アルゴリズムの性能を評価するために,マルチタスク問題に対していくつかの実験を行う。
シミュレーションの結果, 単目的アルゴリズムに対する多目的A2Cアプローチの優位性を示した。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach [38.76462300149459]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z) - A Study of Scalarisation Techniques for Multi-Objective QUBO Solving [0.0]
量子および量子に着想を得た最適化アルゴリズムは、学術ベンチマークや実世界の問題に適用した場合に有望な性能を示す。
しかし、QUBOソルバは単目的解法であり、複数の目的による問題の解法をより効率的にするためには、そのような多目的問題を単目的問題に変換する方法を決定する必要がある。
論文 参考訳(メタデータ) (2022-10-20T14:54:37Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - A survey on multi-objective hyperparameter optimization algorithms for
Machine Learning [62.997667081978825]
本稿では,多目的HPOアルゴリズムに関する2014年から2020年にかけての文献を体系的に調査する。
メタヒューリスティック・ベース・アルゴリズムとメタモデル・ベース・アルゴリズム,および両者を混合したアプローチを区別する。
また,多目的HPO法と今後の研究方向性を比較するための品質指標についても論じる。
論文 参考訳(メタデータ) (2021-11-23T10:22:30Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Momentum-based Gradient Methods in Multi-Objective Recommendation [30.894950420437926]
単目的問題の解法として,多目的モデルに依存しないAdamize法を提案する。
我々は2つの多目的レコメンデータシステムと3つの異なる目的の組み合わせに対して、多目的Adamizeの利点を評価する。
論文 参考訳(メタデータ) (2020-09-10T07:12:21Z) - Follow the bisector: a simple method for multi-objective optimization [65.83318707752385]
複数の異なる損失を最小化しなければならない最適化問題を考える。
提案手法は、各イテレーションにおける降下方向を計算し、目的関数の相対的減少を等しく保証する。
論文 参考訳(メタデータ) (2020-07-14T09:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。