論文の概要: Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization
- arxiv url: http://arxiv.org/abs/2601.04441v1
- Date: Wed, 07 Jan 2026 22:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.948608
- Title: Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization
- Title(参考訳): 構造的政策初期化による大規模離散行動空間におけるオフラインRLの改善と高速化
- Authors: Matthew Landers, Taylor W. Killian, Thomas Hartvigsen, Afsaneh Doryab,
- Abstract要約: 離散的な作用空間における強化学習では、指数関数的に多くの共同作用を探索し、コヒーレントな組み合わせを形成する複数の部分作用を同時に選択する必要がある。
既存のアプローチは、サブアクション間で独立性を仮定することでポリシー学習を単純化するか、またはアクション構造とコントロールを共同で学ぼうとする。
本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
- 参考スコア(独自算出の注目度): 11.646124619395486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning in discrete combinatorial action spaces requires searching over exponentially many joint actions to simultaneously select multiple sub-actions that form coherent combinations. Existing approaches either simplify policy learning by assuming independence across sub-actions, which often yields incoherent or invalid actions, or attempt to learn action structure and control jointly, which is slow and unstable. We introduce Structured Policy Initialization (SPIN), a two-stage framework that first pre-trains an Action Structure Model (ASM) to capture the manifold of valid actions, then freezes this representation and trains lightweight policy heads for control. On challenging discrete DM Control benchmarks, SPIN improves average return by up to 39% over the state of the art while reducing time to convergence by up to 12.8$\times$.
- Abstract(参考訳): 離散組合せ作用空間における強化学習は、指数関数的に多くの共同作用を探索し、一貫性のある組合せを形成する複数の部分作用を同時に選択する必要がある。
既存のアプローチは、しばしば不整合または無効な行動をもたらすサブアクション間の独立を仮定することで、政策学習を単純化するか、または、遅く不安定なアクション構造と共同制御を学習しようと試みる。
本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
挑戦的な離散DM制御のベンチマークでは、SPINは平均リターンを最先端の39%まで改善し、収束までの時間を最大12.8$\times$まで短縮した。
関連論文リスト
- Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces [4.395837214164745]
距離誘導型強化学習(DGRL)を提案し,最大10$text20$アクションを持つ空間における効率的なRLを実現する。
定常および不規則に構造化された環境における最先端ベンチマークに対して,最大66%の性能向上を示す。
論文 参考訳(メタデータ) (2026-02-09T13:05:07Z) - Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization [2.595968385299781]
多目的強化学習は、複数の、しばしば矛盾する目標のバランスをとる政策を学ぼうとする。
PPOベースのフレームワークである$D3PO$を導入し、これらの問題に直接対処するために、多目的ポリシー最適化を再編成する。
D3PO$は、分解された最適化パイプラインを通じてオブジェクトごとの学習信号を保存し、安定化後にのみ好みを統合する。
論文 参考訳(メタデータ) (2026-02-08T01:45:01Z) - Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。
我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:28:54Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient [61.440209025381016]
ポリシー強化学習は、ディープニューラルネットワーク(DNN)を使用して、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。
特定の制約下では、我々はAction Collapse (AC)と呼ばれる神経崩壊に似た構造が出現する。
本稿では,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
論文 参考訳(メタデータ) (2025-09-02T18:33:11Z) - SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies [13.673494183777716]
サブ・アクション・インタラクション・ネットワーク (SAINT) は、多成分のアクションを無秩序な集合として表現し、その依存関係をグローバルな状態に設定された自己注意によってモデル化する新しいポリシーアーキテクチャである。
3つのタスクドメインにまたがる15の異なる環境、例えば1700万近い共同アクションを持つ環境では、SAINTは一貫して強力なベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-17T18:34:31Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。