論文の概要: Interpretability by Design for Efficient Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04022v1
- Date: Wed, 04 Jun 2025 14:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.391106
- Title: Interpretability by Design for Efficient Multi-Objective Reinforcement Learning
- Title(参考訳): 効率的な多目的強化学習のための設計による解釈可能性
- Authors: Qiyue Xia, J. Michael Herrmann,
- Abstract要約: MORL(Multi-objective reinforcement learning)は、RLの柔軟性と信頼性を向上させるために、いくつかの、しばしば矛盾する目標を最適化することを目的としている。
これは、ある客観的な選好に最適で、他の選好に最適な政策によって支配されない多様なポリシーを見つけ、多目的のパフォーマンス空間においてパレートフロントを形成することで達成できる。
- 参考スコア(独自算出の注目度): 0.5524804393257919
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) aims at optimising several, often conflicting goals in order to improve flexibility and reliability of RL in practical tasks. This can be achieved by finding diverse policies that are optimal for some objective preferences and non-dominated by optimal policies for other preferences so that they form a Pareto front in the multi-objective performance space. The relation between the multi-objective performance space and the parameter space that represents the policies is generally non-unique. Using a training scheme that is based on a locally linear map between the parameter space and the performance space, we show that an approximate Pareto front can provide an interpretation of the current parameter vectors in terms of the objectives which enables an effective search within contiguous solution domains. Experiments are conducted with and without retraining across different domains, and the comparison with previous methods demonstrates the efficiency of our approach.
- Abstract(参考訳): MORL(Multi-objective reinforcement learning)は、RLの柔軟性と信頼性を向上させるために、いくつかの、しばしば矛盾する目標を最適化することを目的としている。
これは、ある客観的な選好に最適で、他の選好に最適な政策によって支配されない多様なポリシーを見つけ、多目的のパフォーマンス空間においてパレートフロントを形成することで達成できる。
多目的性能空間とポリシーを表すパラメータ空間の関係は一般に非特異である。
パラメータ空間と性能空間の間の局所線型写像に基づくトレーニングスキームを用いて、近似パレートフロントは、連続した解領域内で有効な探索を可能にする目的の観点から、現在のパラメータベクトルの解釈を提供することができることを示す。
異なる領域にまたがって実験を行ない, 従来手法との比較を行った結果, 提案手法の有効性が示された。
関連論文リスト
- Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Aligned Multi Objective Optimization [15.404668020811513]
機械学習の実践では、このような衝突が起こらないシナリオが数多く存在する。
近年のマルチタスク学習,強化学習,LLMsトレーニングの成果から,多種多様な関連タスクが,目的物間のパフォーマンスを同時に向上する可能性が示唆された。
我々は、アラインド多目的最適化フレームワークを導入し、この設定のための新しいアルゴリズムを提案し、それらの優れた性能の理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-19T20:50:03Z) - C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。