論文の概要: On Generalization Across Environments In Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.00799v1
- Date: Sun, 02 Mar 2025 08:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:56.002552
- Title: On Generalization Across Environments In Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習における環境間の一般化について
- Authors: Jayden Teoh, Pradeep Varakantham, Peter Vamplew,
- Abstract要約: 我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
- 参考スコア(独自算出の注目度): 6.686583184622338
- License:
- Abstract: Real-world sequential decision-making tasks often require balancing trade-offs between multiple conflicting objectives, making Multi-Objective Reinforcement Learning (MORL) an increasingly prominent field of research. Despite recent advances, existing MORL literature has narrowly focused on performance within static environments, neglecting the importance of generalizing across diverse settings. Conversely, existing research on generalization in RL has always assumed scalar rewards, overlooking the inherent multi-objectivity of real-world problems. Generalization in the multi-objective context is fundamentally more challenging, as it requires learning a Pareto set of policies addressing varying preferences across multiple objectives. In this paper, we formalize the concept of generalization in MORL and how it can be evaluated. We then contribute a novel benchmark featuring diverse multi-objective domains with parameterized environment configurations to facilitate future studies in this area. Our baseline evaluations of state-of-the-art MORL algorithms on this benchmark reveals limited generalization capabilities, suggesting significant room for improvement. Our empirical findings also expose limitations in the expressivity of scalar rewards, emphasizing the need for multi-objective specifications to achieve effective generalization. We further analyzed the algorithmic complexities within current MORL approaches that could impede the transfer in performance from the single- to multiple-environment settings. This work fills a critical gap and lays the groundwork for future research that brings together two key areas in reinforcement learning: solving multi-objective decision-making problems and generalizing across diverse environments. We make our code available at https://github.com/JaydenTeoh/MORL-Generalization.
- Abstract(参考訳): 現実のシーケンシャルな意思決定タスクは、複数の対立する目標間のトレードオフのバランスを必要とすることが多く、MORL(Multi-Objective Reinforcement Learning)は、ますます顕著な研究分野になりつつある。
近年の進歩にもかかわらず、既存のMORL文献は、様々な設定をまたいだ一般化の重要性を無視して、静的環境におけるパフォーマンスに細心の注意を払っている。
逆に、RLにおける一般化に関する既存の研究は、実世界の問題の本質的な多目的性を見越して、常にスカラー報酬を仮定してきた。
多目的文脈における一般化は、複数の目的にまたがる様々な好みに対処するパレートのポリシーの集合を学ぶ必要があるため、基本的には困難である。
本稿では、MORLにおける一般化の概念と、それをどのように評価するかを定式化する。
次に,パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案し,今後の研究を促進する。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
また,スカラー報酬の表現性には限界があり,効果的な一般化を実現するための多目的仕様の必要性を強調した。
さらに,現在のMORL手法におけるアルゴリズムの複雑さを解析することにより,単一環境から複数環境への性能移行を阻害する可能性がある。
この研究は重要なギャップを埋め、強化学習の2つの重要な領域、すなわち多目的意思決定問題の解決と多様な環境への一般化をもたらす将来の研究の基盤となる。
コードはhttps://github.com/JaydenTeoh/MORL-Generalizationで公開しています。
関連論文リスト
- Continual Learning Should Move Beyond Incremental Classification [51.23416308775444]
連続学習(Continuous Learning, CL)は、動的環境における知識の蓄積に関わる機械学習のサブフィールドである。
ここでは、このような焦点を維持することは、CL法の理論的発展と実践的適用性の両方を制限すると論じる。
C1) 学習課題における連続性の性質,(C2) 類似性を測定するための適切な空間とメトリクスの選択,(C3) 学習目標が分類を超えた役割である。
論文 参考訳(メタデータ) (2025-02-17T15:40:13Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning [7.822825134714791]
多目的多エージェント強化学習(MOMARL)は、学習プロセスにおいて複数の目的を考慮する必要がある複数のエージェントによる問題に対処する。
MOAlandは、多目的マルチエージェント強化学習のための標準化された環境の最初のコレクションである。
論文 参考訳(メタデータ) (2024-07-23T09:05:06Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Rethinking Multi-domain Generalization with A General Learning Objective [17.155829981870045]
マルチドメイン一般化(mDG)は、トレーニングとテストディストリビューションの相違を最小限にすることを目的としている。
既存のmDG文献には、一般的な学習目標パラダイムが欠けている。
制約緩和に$Y$-mappingを活用することを提案する。
論文 参考訳(メタデータ) (2024-02-29T05:00:30Z) - Multi-Objective Reinforcement Learning Based on Decomposition: A
Taxonomy and Framework [0.3069335774032178]
多目的強化学習(MORL)は、対立する目的の間で異なる妥協を行う政策を求めることにより、従来のRLを拡張している。
RLとMOO/Dの両方に基づく明確な分類は、既存の文献に欠けている。
MORL/Dの包括的分類法が提示され、既存のMORL作品と潜在的なMORL作品の分類のための構造的基盤を提供する。
導入された分類法は、MORLの研究を精査し、明確に分類することで明確さと簡潔さを高めるために用いられる。
論文 参考訳(メタデータ) (2023-11-21T10:11:19Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。