論文の概要: A Reward-Free Viewpoint on Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.24532v1
- Date: Mon, 27 Apr 2026 14:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.084501
- Title: A Reward-Free Viewpoint on Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習におけるリワードフリー視点
- Authors: Ying-Tu Chen, Wei Hung, Bing-Shu Wu, Zhang-Wei Hong, Ping-Chun Hsieh,
- Abstract要約: 多目的強化学習(MORL)における報酬不要強化学習(RFRL)の活用を提案する。
RFRLは歴史的にMORLとは独立に研究されており、未知のユーザー嗜好を扱うというMORLの課題に自然に適合している。
提案手法は,MO-Gymnasiumタスクにまたがる最先端のMORL手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 19.061803766467627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequential decision-making tasks involve optimizing multiple conflicting objectives, requiring policies that adapt to different user preferences. In multi-objective reinforcement learning (MORL), one widely studied approach} addresses this by training a single policy network conditioned on preference-weighted rewards. In this paper, we explore a novel algorithmic perspective: leveraging reward-free reinforcement learning (RFRL) for MORL. While RFRL has historically been studied independently of MORL, it learns optimal policies for any possible reward function, making it a natural fit for MORL's challenge of handling unknown user preferences. We propose using the RFRL's training objective as an auxiliary task to enhance MORL, enabling more effective knowledge sharing beyond the multi-objective reward function given at training time. To this end, we adapt a state-of-the-art RFRL algorithm to the MORL setting and introduce a preference-guided exploration strategy that focuses learning on relevant parts of the environment. Through extensive experiments and ablation studies, we demonstrate that our approach significantly outperforms the state-of-the-art MORL methods across diverse MO-Gymnasium tasks, achieving superior performance and data efficiency. This work provides the first systematic adaptation of RFRL to MORL, demonstrating its potential as a scalable and empirically effective solution to multi-objective policy learning.
- Abstract(参考訳): 多くのシーケンシャルな意思決定タスクは、複数の矛盾する目標を最適化することを含み、異なるユーザの好みに適応するポリシーを必要とする。
多目的強化学習(MORL)では、優先重み付け報酬を条件とした単一のポリシーネットワークをトレーニングすることで、この問題に対処するアプローチが広く研究されている。
本稿では,MORLに対する報酬不要強化学習(RFRL)の活用という,新しいアルゴリズム的視点について検討する。
RFRLは歴史的にMORLとは独立に研究されてきたが、任意の報酬関数に対する最適ポリシーを学習し、未知のユーザの好みを扱うというMORLの課題に自然に適合する。
我々は,RFRLの学習目標をMORLを強化する補助的タスクとして利用し,学習時に与えられる多目的報酬関数を超えて,より効果的な知識共有を可能にすることを提案する。
この目的のために、我々は最先端のRFRLアルゴリズムをMORL設定に適用し、環境の関連部分に焦点を絞った優先誘導探索戦略を導入する。
本研究では,MO-Gymnasiumタスクにまたがる最先端のMORL手法よりも優れた性能とデータ効率を実現していることを示す。
この研究は、RFRLをMORLに初めて体系的に適応させ、多目的政策学習のスケーラブルで経験的に有効なソリューションとしての可能性を示した。
関連論文リスト
- PCHC: Enabling Preference Conditioned Humanoid Control via Multi-Objective Reinforcement Learning [50.63196995993855]
多目的強化学習(MORL)を活用してPCHC(Preference-Conditioned Humanoid Control)を実現する新しいフレームワークを提案する。
当社のフレームワークは、単一の嗜好条件のポリシーを多種多様な行動を示すために有効である。
論文 参考訳(メタデータ) (2026-03-25T07:55:37Z) - Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。
そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。
ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文 参考訳(メタデータ) (2025-07-18T16:43:04Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。