論文の概要: PRISM: Parallel Reward Integration with Symmetry for MORL
- arxiv url: http://arxiv.org/abs/2602.18277v1
- Date: Fri, 20 Feb 2026 15:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.357913
- Title: PRISM: Parallel Reward Integration with Symmetry for MORL
- Title(参考訳): PRISM:MORLのためのシンメトリーによる並列リワード統合
- Authors: Finn van der Knaap, Kejiang Qian, Zheng Xu, Fengxiang He,
- Abstract要約: 本研究はMORL(Multi-Objective Reinforcement Learning)について研究し,時間周波数で目的が著しく異なることを示す。
本稿では,報酬チャネルの整合における帰納バイアスとして反射対称性を適用したPRISM(Parallel Reward Integration with Symmetry)アルゴリズムを提案する。
MuJoCoベンチマーク全体では、PRISMはスパースリワードベースラインと、フルに密集した報酬でトレーニングされた託宣の両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 21.062340361303608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies heterogeneous Multi-Objective Reinforcement Learning (MORL), where objectives can differ sharply in temporal frequency. Such heterogeneity allows dense objectives to dominate learning, while sparse long-horizon rewards receive weak credit assignment, leading to poor sample efficiency. We propose a Parallel Reward Integration with Symmetry (PRISM) algorithm that enforces reflectional symmetry as an inductive bias in aligning reward channels. PRISM introduces ReSymNet, a theory-motivated model that reconciles temporal-frequency mismatches across objectives, using residual blocks to learn a scaled opportunity value that accelerates exploration while preserving the optimal policy. We also propose SymReg, a reflectional equivariance regulariser that enforces agent mirroring and constrains policy search to a reflection-equivariant subspace. This restriction provably reduces hypothesis complexity and improves generalisation. Across MuJoCo benchmarks, PRISM consistently outperforms both a sparse-reward baseline and an oracle trained with full dense rewards, improving Pareto coverage and distributional balance: it achieves hypervolume gains exceeding 100\% over the baseline and up to 32\% over the oracle. The code is at \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM}.
- Abstract(参考訳): 本研究は,異種多目的強化学習(MORL)について検討し,時間周波数で目的が著しく異なることを示す。
このような不均一性は、密集した目的が学習を支配するのを許し、希少なロングホライゾン報酬は弱い信用代入を受け、サンプル効率が低下する。
本稿では,報酬チャネルの整合における帰納バイアスとして反射対称性を適用したPRISM(Parallel Reward Integration with Symmetry)アルゴリズムを提案する。
PRISMはReSymNetを導入している。ReSymNetは理論を動機としたモデルで、時間周波数のミスマッチを客観的に調整し、残余ブロックを使用して探索を加速し、最適なポリシーを維持しながら、探索を加速するスケールされた機会値を学ぶ。
また、エージェントミラー化を強制し、ポリシー探索を反射同変部分空間に制約する反射同値正規化器であるSymRegを提案する。
この制限は仮説の複雑さを確実に減少させ、一般化を改善する。
MuJoCoベンチマーク全体では、PRISMはスパース・リワードベースラインと、完全に密集した報酬で訓練されたオラクルの両方を一貫して上回り、Paretoカバレッジと分散バランスを改善している。
コードは \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM} にある。
関連論文リスト
- MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning [16.012761588513026]
既存のReinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、剛性、一様、対称的な信頼領域機構に依存している。
本稿では,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
論文 参考訳(メタデータ) (2026-02-19T17:05:20Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。