論文の概要: Latent Spherical Flow Policy for Reinforcement Learning with Combinatorial Actions
- arxiv url: http://arxiv.org/abs/2601.22211v1
- Date: Thu, 29 Jan 2026 18:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.004359
- Title: Latent Spherical Flow Policy for Reinforcement Learning with Combinatorial Actions
- Title(参考訳): 組合せ行動による強化学習のための潜在球面流政策
- Authors: Lingkai Kong, Anagha Satish, Hezi Jiang, Akseli Kangaslahti, Andrew Ma, Wenbo Chen, Mingxiao Song, Lily Xu, Milind Tambe,
- Abstract要約: 既存のアプローチでは、タスク固有の値関数を制約付き最適化プログラムに組み込むか、決定論的構造化ポリシーを学習し、汎用性とポリシー表現性を犠牲にする。
本稿では, 設計による実現性を確保しつつ, 近代的な生成ポリシーの表現性をRLにもたらす, 解法による球面フローポリシーを提案する。
我々のアプローチは、さまざまな課題RLタスクにおいて、最先端のベースラインを平均20.6%上回る。
- 参考スコア(独自算出の注目度): 31.697208397735395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with combinatorial action spaces remains challenging because feasible action sets are exponentially large and governed by complex feasibility constraints, making direct policy parameterization impractical. Existing approaches embed task-specific value functions into constrained optimization programs or learn deterministic structured policies, sacrificing generality and policy expressiveness. We propose a solver-induced \emph{latent spherical flow policy} that brings the expressiveness of modern generative policies to combinatorial RL while guaranteeing feasibility by design. Our method, LSFlow, learns a \emph{stochastic} policy in a compact continuous latent space via spherical flow matching, and delegates feasibility to a combinatorial optimization solver that maps each latent sample to a valid structured action. To improve efficiency, we train the value network directly in the latent space, avoiding repeated solver calls during policy optimization. To address the piecewise-constant and discontinuous value landscape induced by solver-based action selection, we introduce a smoothed Bellman operator that yields stable, well-defined learning targets. Empirically, our approach outperforms state-of-the-art baselines by an average of 20.6\% across a range of challenging combinatorial RL tasks.
- Abstract(参考訳): 統合的行動空間を持つ強化学習(RL)は、実行可能行動集合が指数関数的に大きく、複雑な実行可能性制約によって制御され、直接的なポリシーパラメータ化が非現実的になるため、依然として困難である。
既存のアプローチでは、タスク固有の値関数を制約付き最適化プログラムに組み込むか、決定論的構造化ポリシーを学習し、汎用性とポリシー表現性を犠牲にする。
本稿では, 設計による実現性を確保しつつ, 組合せ RL に近代的な生成ポリシーの表現性をもたらす, 解法により誘導される球面フローポリシーを提案する。
LSFlowは球面フローマッチングによりコンパクトな連続潜時空間で「emph{stochastic}」ポリシーを学習し、各潜時サンプルを有効な構造化された動作にマッピングする組合せ最適化解法に実現可能性を示す。
効率を向上させるため,政策最適化時に繰り返し発生する問題解決の呼び出しを回避し,潜時空間で直接価値ネットワークを訓練する。
解法に基づく行動選択によって引き起こされる一括一貫した不連続な値のランドスケープに対処するために,安定かつ明確に定義された学習目標を導出するスムーズなベルマン演算子を導入する。
経験的に、我々のアプローチは、様々な難解な組合せRLタスクにおいて、最先端のベースラインを平均20.6 %上回る。
関連論文リスト
- Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。
これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。
変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文 参考訳(メタデータ) (2026-01-29T21:52:06Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Flow-Based Policy for Online Reinforcement Learning [34.86742824686496]
FlowRLは、フローベースのポリシー表現とWasserstein-2正規化最適化を統合する、オンライン強化学習のためのフレームワークである。
オンライン強化学習ベンチマークにおいて,FlowRLが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-15T10:53:35Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。