論文の概要: Scalable Multi-Objective Robot Reinforcement Learning through Gradient Conflict Resolution
- arxiv url: http://arxiv.org/abs/2509.14816v1
- Date: Thu, 18 Sep 2025 10:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.164002
- Title: Scalable Multi-Objective Robot Reinforcement Learning through Gradient Conflict Resolution
- Title(参考訳): グラディエント・コンフリクト・レゾリューションによるスケーラブル多目的ロボット強化学習
- Authors: Humphrey Munn, Brendan Tidd, Peter Böhm, Marcus Gallagher, David Howard,
- Abstract要約: タスクベースの報酬と、現実的な行動に対するポリシーを規則化する用語の衝突を解決する方法を示す。
本稿では、アクター更新を客観的な勾配に分解するアクター批判最適化の修正であるGCR-PPOを提案する。
GCR-PPOは、最大で9.5%の改善を達成し、より高度な改善を観察する、大規模な近位政策最適化を改善する。
- 参考スコア(独自算出の注目度): 2.359524447776588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) robot controllers usually aggregate many task objectives into one scalar reward. While large-scale proximal policy optimisation (PPO) has enabled impressive results such as robust robot locomotion in the real world, many tasks still require careful reward tuning and are brittle to local optima. Tuning cost and sub-optimality grow with the number of objectives, limiting scalability. Modelling reward vectors and their trade-offs can address these issues; however, multi-objective methods remain underused in RL for robotics because of computational cost and optimisation difficulty. In this work, we investigate the conflict between gradient contributions for each objective that emerge from scalarising the task objectives. In particular, we explicitly address the conflict between task-based rewards and terms that regularise the policy towards realistic behaviour. We propose GCR-PPO, a modification to actor-critic optimisation that decomposes the actor update into objective-wise gradients using a multi-headed critic and resolves conflicts based on the objective priority. Our methodology, GCR-PPO, is evaluated on the well-known IsaacLab manipulation and locomotion benchmarks and additional multi-objective modifications on two related tasks. We show superior scalability compared to parallel PPO (p = 0.04), without significant computational overhead. We also show higher performance with more conflicting tasks. GCR-PPO improves on large-scale PPO with an average improvement of 9.5%, with high-conflict tasks observing a greater improvement. The code is available at https://github.com/humphreymunn/GCR-PPO.
- Abstract(参考訳): 強化学習(RL)ロボットコントローラは通常、多くのタスク目標を1つのスカラー報酬に集約する。
大規模近位政策最適化(PPO)は、実世界におけるロバストなロボットの移動のような印象的な結果を実現する一方で、多くのタスクは依然として注意深い報酬調整を必要としており、局所的なオプティマに対して脆弱である。
調整コストとサブ最適度は、目的の数が増加し、スケーラビリティが制限される。
報酬ベクトルとそれらのトレードオフをモデル化することはこれらの問題に対処することができるが、計算コストと最適化の難しさのため、ロボット工学の多目的手法はロボット工学において過小評価されている。
本研究では,タスク目標のスキャラライズから生じる各目標に対する勾配貢献の相違について検討する。
特に、タスクベースの報酬と、現実的な行動に対するポリシーを規則化する用語の衝突に明示的に対処する。
GCR-PPOは、アクター更新を多面的批評家を用いて客観的な勾配に分解し、目的的優先度に基づいて競合を解決するアクター批判最適化の修正である。
我々の手法であるGCR-PPOは、よく知られたIsaacLabの操作と移動のベンチマークと、関連する2つのタスクに対する追加の多目的修正に基づいて評価される。
計算オーバーヘッドが大きくない並列PPO(p = 0.04)と比較して優れたスケーラビリティを示す。
また、より矛盾するタスクでより高いパフォーマンスを示します。
GCR-PPOは、大規模PPOを平均で9.5%改善し、高いコンフリクトなタスクで改善を観察する。
コードはhttps://github.com/humphreymunn/GCR-PPOで公開されている。
関連論文リスト
- Balancing Multiple Objectives in Urban Traffic Control with Reinforcement Learning from AI Feedback [14.81819959351561]
我々は、多目的RLAIFが、努力的な報酬工学を使わずに、異なるユーザの優先順位を反映したバランスの取れたトレードオフをもたらすポリシーを作成できることを示した。
RLAIFを多目的RLに統合することは、ユーザによるポリシー学習へのスケーラブルなパスを提供する、と我々は主張する。
論文 参考訳(メタデータ) (2026-02-24T09:47:25Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments [0.0]
本稿では,これらの課題に対処するMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。
スケーラビリティを確保するため、平均場理論をHRLフレームワークに統合する。
我々の平均場アクター批判法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-02T19:11:44Z) - Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation [8.50468505606714]
強化学習(RL)における複数の目的を同時に最適化する政策を効率的に推定する問題について検討する。
この問題は、ロボット工学、制御、言語モデルにおける好みの最適化などの応用で生じる。
この問題に対処するために,メタトレーニングと微調整という2段階の手順を導入する。
論文 参考訳(メタデータ) (2025-11-16T21:05:21Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。