論文の概要: Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems
- arxiv url: http://arxiv.org/abs/2408.01188v2
- Date: Mon, 30 Sep 2024 13:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:07.248579
- Title: Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems
- Title(参考訳): 自律システムにおける最適化のための多目的深層強化学習
- Authors: Juan C. Rosero, Ivana Dusparic, Nicolás Cardozo,
- Abstract要約: MORL(Multi-Objective Reinforcement Learning)技術は存在するが、実世界のASシステムではなくRLベンチマークで採用されている。
本研究では,DWN(Deep W-Learning)と呼ばれるMORL技術を用いて,実行時性能最適化のための最適構成を求める。
我々はDWNとepsilon-greedyアルゴリズムとDeep Q-Networksの2つの単目的最適化実装を比較した。
- 参考スコア(独自算出の注目度): 3.2826250607043796
- License:
- Abstract: Reinforcement Learning (RL) is used extensively in Autonomous Systems (AS) as it enables learning at runtime without the need for a model of the environment or predefined actions. However, most applications of RL in AS, such as those based on Q-learning, can only optimize one objective, making it necessary in multi-objective systems to combine multiple objectives in a single objective function with predefined weights. A number of Multi-Objective Reinforcement Learning (MORL) techniques exist but they have mostly been applied in RL benchmarks rather than real-world AS systems. In this work, we use a MORL technique called Deep W-Learning (DWN) and apply it to the Emergent Web Servers exemplar, a self-adaptive server, to find the optimal configuration for runtime performance optimization. We compare DWN to two single-objective optimization implementations: {\epsilon}-greedy algorithm and Deep Q-Networks. Our initial evaluation shows that DWN optimizes multiple objectives simultaneously with similar results than DQN and {\epsilon}-greedy approaches, having a better performance for some metrics, and avoids issues associated with combining multiple objectives into a single utility function.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、自律システム(AS)において、環境のモデルや事前定義されたアクションを必要とせず、実行時の学習を可能にするために広く使用されている。
しかしながら、Q-learning のような AS における RL のほとんどの応用は、1つの目的のみを最適化することができ、複数の目的を1つの目的関数と事前定義された重みで組み合わせるために、多目的システムにおいて必要となる。
MORL(Multi-Objective Reinforcement Learning)技術はいくつか存在するが、実世界のASシステムではなくRLベンチマークで採用されている。
本稿では,Deep W-Learning(DWN)と呼ばれるMORL技術を用いて,自己適応型サーバであるEmergent Web Servers exemplarに適用し,実行時のパフォーマンス最適化に最適な構成を求める。
DWNを2つの単目的最適化実装と比較する: {\epsilon}-greedyアルゴリズムとDeep Q-Networks。
最初の評価では,DWN は DQN と {\epsilon}-greedy のアプローチと類似した結果と同時に複数の目的を最適化し,いくつかの指標の性能が向上し,複数の目的をひとつのユーティリティ関数に結合する問題を回避する。
関連論文リスト
- Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning [8.471466670802815]
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
論文 参考訳(メタデータ) (2024-03-13T18:05:16Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement
Learning for Discrete Prompt Optimization [49.60729578316884]
RLベースの手法は、ユーザーが指定した報酬関数の集合を最大化するプロンプトの探索に使用できる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
本稿では,RLに基づく離散的なプロンプト最適化に,多目的最適化のためのいくつかの手法を適用する。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Event Classification with Multi-step Machine Learning [0.0]
マルチステップ機械学習(ML)は、既知の中間推論目標を持つ接続されたサブタスクに編成される。
分散アーキテクチャサーチ(DARTS)と単一パスワンショットNAS(SPOS-NAS)をテストし、損失関数の構築を改善し、すべてのMLモデルをスムーズに学習する。
DARTSとSPOS-NASを最適化と選択、多段階機械学習システムとの接続として使用することにより、(1)高パフォーマンスモデルの組み合わせを迅速かつうまく選択でき、(2)グリッドサーチなどのベースラインアルゴリズムと整合性があることがわかった。
論文 参考訳(メタデータ) (2021-06-04T07:22:05Z) - MLComp: A Methodology for Machine Learning-based Performance Estimation
and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences [10.200899224740871]
組込みソフトウェア最適化のための新しい強化学習型ポリシー手法を提案する。
異なる機械学習モデルが自動的にテストされ、最適なものを選択する。
また、ターゲットとするプラットフォームやアプリケーションドメインに対して、フレームワークを効率的にトレーニングできることも示しています。
論文 参考訳(メタデータ) (2020-12-09T19:13:39Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。