論文の概要: Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation
- arxiv url: http://arxiv.org/abs/2511.12779v1
- Date: Sun, 16 Nov 2025 21:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.534887
- Title: Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation
- Title(参考訳): 勾配推定によるスケーラブルな多目的・メタ強化学習
- Authors: Zhenshuo Zhang, Minxuan Duan, Youran Ye, Hongyang R. Zhang,
- Abstract要約: 強化学習(RL)における複数の目的を同時に最適化する政策を効率的に推定する問題について検討する。
この問題は、ロボット工学、制御、言語モデルにおける好みの最適化などの応用で生じる。
この問題に対処するために,メタトレーニングと微調整という2段階の手順を導入する。
- 参考スコア(独自算出の注目度): 8.50468505606714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of efficiently estimating policies that simultaneously optimize multiple objectives in reinforcement learning (RL). Given $n$ objectives (or tasks), we seek the optimal partition of these objectives into $k \ll n$ groups, where each group comprises related objectives that can be trained together. This problem arises in applications such as robotics, control, and preference optimization in language models, where learning a single policy for all $n$ objectives is suboptimal as $n$ grows. We introduce a two-stage procedure -- meta-training followed by fine-tuning -- to address this problem. We first learn a meta-policy for all objectives using multitask learning. Then, we adapt the meta-policy to multiple randomly sampled subsets of objectives. The adaptation step leverages a first-order approximation property of well-trained policy networks, which is empirically verified to be accurate within a $2\%$ error margin across various RL environments. The resulting algorithm, PolicyGradEx, efficiently estimates an aggregate task-affinity score matrix given a policy evaluation algorithm. Based on the estimated affinity score matrix, we cluster the $n$ objectives into $k$ groups by maximizing the intra-cluster affinity scores. Experiments on three robotic control and the Meta-World benchmarks demonstrate that our approach outperforms state-of-the-art baselines by $16\%$ on average, while delivering up to $26\times$ faster speedup relative to performing full training to obtain the clusters. Ablation studies validate each component of our approach. For instance, compared with random grouping and gradient-similarity-based grouping, our loss-based clustering yields an improvement of $19\%$. Finally, we analyze the generalization error of policy networks by measuring the Hessian trace of the loss surface, which gives non-vacuous measures relative to the observed generalization errors.
- Abstract(参考訳): 強化学習(RL)における複数の目的を同時に最適化する政策を効率的に推定する問題について検討する。
n$の目的(あるいはタスク)が与えられたら、これらの目的の最適分割を$k \ll n$グループに求める。
この問題は、言語モデルにおけるロボティクス、制御、選好最適化などのアプリケーションで発生し、そこでは、$n$の目的に対して1つのポリシーを学ぶことは、$n$が成長するにつれて、準最適である。
この問題に対処するために,メタトレーニングと微調整という2段階の手順を導入する。
まず,マルチタスク学習を用いて,目的ごとのメタ政治を学習する。
次に、メタ政治を複数の目的のランダムにサンプリングしたサブセットに適用する。
適応ステップは、よく訓練されたポリシーネットワークの1次近似特性を活用する。
得られたアルゴリズムであるPolicyGradExは、ポリシー評価アルゴリズムが与えられた集合的タスク親和性スコア行列を効率的に推定する。
推定アフィニティスコア行列に基づいて、クラスタ内アフィニティスコアを最大化することにより、$n$目標を$k$グループにクラスタ化する。
3つのロボット制御とMeta-Worldベンチマークの実験では、私たちのアプローチは最先端のベースラインを平均16セントで上回り、クラスタを取得するための完全なトレーニングを実行するよりも、最大26セントのスピードアップを実現しています。
アブレーション研究は我々のアプローチのそれぞれの構成要素を検証する。
例えば、ランダムなグルーピングや勾配類似性に基づくグルーピングと比較すると、ロスベースのクラスタリングは19\%$の改善をもたらす。
最後に,損失面のヘシアントレースを測定することで,政策ネットワークの一般化誤差を解析し,観測された一般化誤差に対して非空測度を与える。
関連論文リスト
- Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF [13.612504157832708]
強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、機械学習モデルと人間の好みを一致させる、広く使われている微調整アプローチである。
本研究では,非線形アグリゲーション問題を一連のサブプロブレムに変換し,フレームワークを多群シナリオに拡張する。
我々は,アルゴリズムフレームワークがサブ線形後悔を実現し,報酬のないアルゴリズムに容易に適応できることを実証した。
論文 参考訳(メタデータ) (2025-02-21T01:56:52Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning [13.908826484332282]
マルチタスク強化学習(Multi-task reinforcement learning, RL)は、複数のタスクを同時に効果的に解決する単一のポリシーを見つけることを目的としている。
本稿では,マルチタスクRLの制約付き定式化を行い,各タスクのパフォーマンスに制約が課せられるタスク間のポリシーの平均性能を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-05-03T19:43:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm [50.50545326342971]
複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対してポリシー段階に基づくモデルフリーアルゴリズムを提案する。
提案アルゴリズムは,グローバルオプティマの$epsilon$以内に収束することが示されている。
論文 参考訳(メタデータ) (2021-05-28T22:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。