論文の概要: Sample-Efficient Hypergradient Estimation for Decentralized Bi-Level Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.14867v1
- Date: Mon, 16 Mar 2026 06:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.09002
- Title: Sample-Efficient Hypergradient Estimation for Decentralized Bi-Level Reinforcement Learning
- Title(参考訳): 分散二層強化学習のためのサンプル効率高次推定法
- Authors: Mikoto Kudo, Takumi Tanabe, Akifumi Wachi, Youhei Akimoto,
- Abstract要約: 倉庫ロボットの環境設計など多くの戦略的意思決定問題は、自然に二段階強化学習(RL)として定式化することができる。
我々は、リーダーの目的、すなわち、フォロワーの最適政策の変化を説明するリーダーの戦略の勾配の過度に導かれる。
これは、分散環境で2人プレイヤのマルコフゲームの過度な最適化を可能にする最初の方法である。
- 参考スコア(独自算出の注目度): 10.100625955477271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many strategic decision-making problems, such as environment design for warehouse robots, can be naturally formulated as bi-level reinforcement learning (RL), where a leader agent optimizes its objective while a follower solves a Markov decision process (MDP) conditioned on the leader's decisions. In many situations, a fundamental challenge arises when the leader cannot intervene in the follower's optimization process; it can only observe the optimization outcome. We address this decentralized setting by deriving the hypergradient of the leader's objective, i.e., the gradient of the leader's strategy that accounts for changes in the follower's optimal policy. Unlike prior hypergradient-based methods that require extensive data for repeated state visits or rely on gradient estimators whose complexity can increase substantially with the high-dimensional leader's decision space, we leverage the Boltzmann covariance trick to derive an alternative hypergradient formulation. This enables efficient hypergradient estimation solely from interaction samples, even when the leader's decision space is high-dimensional. Additionally, to our knowledge, this is the first method that enables hypergradient-based optimization for 2-player Markov games in decentralized settings. Experiments highlight the impact of hypergradient updates and demonstrate our method's effectiveness in both discrete and continuous state tasks.
- Abstract(参考訳): 倉庫ロボットの環境設計など多くの戦略的意思決定問題は、リーダーエージェントが目的を最適化し、フォロワーがリーダーの判断に照らしたマルコフ決定プロセス(MDP)を解くという、2段階強化学習(RL)として自然に定式化することができる。
多くの場合、リーダーがフォロワーの最適化プロセスに介入できない場合、根本的な課題が発生します。
我々は、リーダーの目的の過度な段階、すなわちフォロワーの最適政策の変化を考慮に入れたリーダーの戦略の勾配を導いて、この分散的な設定に対処する。
繰り返し状態訪問のために広範なデータを必要とする従来の過次的手法や、高次元のリーダーの決定空間で大きく増大する勾配推定器に依存する手法とは異なり、ボルツマン共分散法を利用して別の過次的定式化を導出する。
これにより、リーダーの決定空間が高次元である場合でも、相互作用サンプルのみから効率的な過勾配推定が可能になる。
さらに,本手法は,分散環境下での2プレーヤマルコフゲームに対する過度な最適化を実現する最初の方法である。
実験では、過度な更新の影響を強調し、個別タスクと連続タスクの両方において、メソッドの有効性を実証する。
関連論文リスト
- AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models [54.56296715999545]
人間のフィードバックからの強化学習は、拡散とフローモデルの整合性を示す。
GRPOのような政策最適化手法は、非効率で静的なサンプリング戦略に悩まされている。
適応エントロピー誘導政策最適化(Adaptive Entropy-Guided Policy Optimization, AEGPO)を提案する。
論文 参考訳(メタデータ) (2026-02-06T16:09:50Z) - A Regularized Actor-Critic Algorithm for Bi-Level Reinforcement Learning [24.969317765059174]
我々は,上層目標が滑らかな関数であり,下層問題はマルコフ決定過程(MDP)におけるポリシー最適化である構造的二層最適化問題について検討する。
既存の2段階最適化法とRLは、しばしば2階情報を必要とし、下位レベルに強い正規化を課すか、ネストループ手順でサンプルを非効率に利用する。
本稿では, ペナルティに基づくリフレクションにより, 両レベル目標を最適化する単一ループ一階アクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-23T02:12:24Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Contextual Bilevel Reinforcement Learning for Incentive Alignment [42.22085862132403]
両レベルの意思決定モデルであるCB-RL(Contextual Bilevel Reinforcement Learning)を導入する。
CB-RL は Stackelberg Game と見ることができ、リーダーとリーダーのコントロールを超えたランダムなコンテキストが同時に多くの MDP の設定を決定する。
このフレームワークは、従来の二段階最適化を超えて、報酬形成、契約理論、メカニズム設計といった様々な分野に関連性を見出す。
論文 参考訳(メタデータ) (2024-06-03T17:54:39Z) - Contextual Stochastic Bilevel Optimization [50.36775806399861]
文脈情報と上層変数の期待を最小化する2レベル最適化フレームワークCSBOを導入する。
メタラーニング、パーソナライズドラーニング、エンド・ツー・エンドラーニング、Wassersteinはサイド情報(WDRO-SI)を分散的に最適化している。
論文 参考訳(メタデータ) (2023-10-27T23:24:37Z) - Inexact bilevel stochastic gradient methods for constrained and
unconstrained lower-level problems [0.0]
2段階の定式探索最適化は多くの機械学習の文脈で有効になっている。
2階微分を必要としない新しい低ランク二階勾配法が開発されている。
論文 参考訳(メタデータ) (2021-10-01T18:20:14Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。