論文の概要: Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization
- arxiv url: http://arxiv.org/abs/2601.04441v1
- Date: Wed, 07 Jan 2026 22:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.948608
- Title: Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization
- Title(参考訳): 構造的政策初期化による大規模離散行動空間におけるオフラインRLの改善と高速化
- Authors: Matthew Landers, Taylor W. Killian, Thomas Hartvigsen, Afsaneh Doryab,
- Abstract要約: 離散的な作用空間における強化学習では、指数関数的に多くの共同作用を探索し、コヒーレントな組み合わせを形成する複数の部分作用を同時に選択する必要がある。
既存のアプローチは、サブアクション間で独立性を仮定することでポリシー学習を単純化するか、またはアクション構造とコントロールを共同で学ぼうとする。
本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
- 参考スコア(独自算出の注目度): 11.646124619395486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning in discrete combinatorial action spaces requires searching over exponentially many joint actions to simultaneously select multiple sub-actions that form coherent combinations. Existing approaches either simplify policy learning by assuming independence across sub-actions, which often yields incoherent or invalid actions, or attempt to learn action structure and control jointly, which is slow and unstable. We introduce Structured Policy Initialization (SPIN), a two-stage framework that first pre-trains an Action Structure Model (ASM) to capture the manifold of valid actions, then freezes this representation and trains lightweight policy heads for control. On challenging discrete DM Control benchmarks, SPIN improves average return by up to 39% over the state of the art while reducing time to convergence by up to 12.8$\times$.
- Abstract(参考訳): 離散組合せ作用空間における強化学習は、指数関数的に多くの共同作用を探索し、一貫性のある組合せを形成する複数の部分作用を同時に選択する必要がある。
既存のアプローチは、しばしば不整合または無効な行動をもたらすサブアクション間の独立を仮定することで、政策学習を単純化するか、または、遅く不安定なアクション構造と共同制御を学習しようと試みる。
本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
挑戦的な離散DM制御のベンチマークでは、SPINは平均リターンを最先端の39%まで改善し、収束までの時間を最大12.8$\times$まで短縮した。
関連論文リスト
- Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies [13.673494183777716]
サブ・アクション・インタラクション・ネットワーク (SAINT) は、多成分のアクションを無秩序な集合として表現し、その依存関係をグローバルな状態に設定された自己注意によってモデル化する新しいポリシーアーキテクチャである。
3つのタスクドメインにまたがる15の異なる環境、例えば1700万近い共同アクションを持つ環境では、SAINTは一貫して強力なベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-17T18:34:31Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。