Fugu-MT 論文翻訳(概要): Variance Reduced Policy Gradient Method for Multi-Objective Reinforcement Learning

論文の概要: Variance Reduced Policy Gradient Method for Multi-Objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.10608v1
Date: Thu, 14 Aug 2025 12:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-15 22:24:48.319617
Title: Variance Reduced Policy Gradient Method for Multi-Objective Reinforcement Learning
Title（参考訳）: 多目的強化学習のための変数削減ポリシー勾配法
Authors: Davide Guidobene, Lorenzo Benedetti, Diego Arapovic,
Abstract要約: 多目的強化学習(MORL)は、従来の強化学習(RL)の一般化である目的を非線形スカラー化関数を用いて組み合わせるMORLの問題点を考察する。この問題を解決しようとする以前の試みは過度に厳密な仮定に依存しており、大規模な状態対応空間への拡張性におけるPGMの利点を失う。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Objective Reinforcement Learning (MORL) is a generalization of traditional Reinforcement Learning (RL) that aims to optimize multiple, often conflicting objectives simultaneously rather than focusing on a single reward. This approach is crucial in complex decision-making scenarios where agents must balance trade-offs between various goals, such as maximizing performance while minimizing costs. We consider the problem of MORL where the objectives are combined using a non-linear scalarization function. Just like in standard RL, policy gradient methods (PGMs) are amongst the most effective for handling large and continuous state-action spaces in MORL. However, existing PGMs for MORL suffer from high sample inefficiency, requiring large amounts of data to be effective. Previous attempts to solve this problem rely on overly strict assumptions, losing PGMs' benefits in scalability to large state-action spaces. In this work, we address the issue of sample efficiency by implementing variance-reduction techniques to reduce the sample complexity of policy gradients while maintaining general assumptions.
Abstract（参考訳）: MORL(Multi-Objective Reinforcement Learning)は、伝統的な強化学習(RL)の一般化である。このアプローチは、エージェントがパフォーマンスの最大化やコストの最小化など、さまざまな目標間のトレードオフをバランスしなければならない複雑な意思決定シナリオにおいて不可欠である。目的を非線形スカラー化関数を用いて組み合わせるMORLの問題点を考察する。標準RLと同様に、ポリシー勾配法(PGM)は、MORLにおける大規模かつ連続的な状態-作用空間を扱うのに最も効果的である。しかし、既存のMORL用PGMは高いサンプル不効率に悩まされ、大量のデータを有効にする必要がある。この問題を解決しようとする以前の試みは過度に厳密な仮定に依存しており、大規模な状態対応空間への拡張性におけるPGMの利点を失う。本研究では,一般的な仮定を維持しつつ,政策勾配のサンプルの複雑さを低減するため,分散還元手法を導入することで,サンプル効率の問題に対処する。

関連論文リスト

Pareto Multi-Objective Alignment for Language Models [7.9051473654430655]
大規模言語モデル(LLM)は、複数の、しばしば矛盾する、目的の慎重なバランスを必要とする現実世界のアプリケーションに、ますます多くデプロイされている。 LLMにおける多目的アライメント(MOA)を明示的に設計するアルゴリズムを提案する。 PAMAは、マルチオブジェクトRLHFをクローズドフォームソリューションで凸最適化に変換し、スケーラビリティを大幅に向上させる。
論文参考訳（メタデータ） (2025-08-11T08:54:14Z)
UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文参考訳（メタデータ） (2025-03-10T09:52:42Z)
Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。 PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。 PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文参考訳（メタデータ） (2025-01-12T10:43:05Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。 PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文参考訳（メタデータ） (2022-08-16T19:23:02Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文参考訳（メタデータ） (2022-04-11T10:06:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。