論文の概要: Flow Matching for Offline Reinforcement Learning with Discrete Actions
- arxiv url: http://arxiv.org/abs/2602.06138v1
- Date: Thu, 05 Feb 2026 19:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.074589
- Title: Flow Matching for Offline Reinforcement Learning with Discrete Actions
- Title(参考訳): 離散行動を用いたオフライン強化学習のためのフローマッチング
- Authors: Fairoz Nower Khan, Nabuat Zaman Nahim, Ruiquan Huang, Haibo Yang, Peizhong Ju,
- Abstract要約: フローマッチングを、複数の目的を持った離散的なアクション空間をサポートする一般的なフレームワークに拡張する。
具体的には,連続フローを連続時間マルコフ連鎖に置き換え,Q重み付きフローマッチングの目的を用いて学習する。
次に,多エージェント設定に設計を拡張し,因子化条件付き経路による共同行動空間の指数的成長を緩和する。
- 参考スコア(独自算出の注目度): 18.806918500759704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative policies based on diffusion models and flow matching have shown strong promise for offline reinforcement learning (RL), but their applicability remains largely confined to continuous action spaces. To address a broader range of offline RL settings, we extend flow matching to a general framework that supports discrete action spaces with multiple objectives. Specifically, we replace continuous flows with continuous-time Markov chains, trained using a Q-weighted flow matching objective. We then extend our design to multi-agent settings, mitigating the exponential growth of joint action spaces via a factorized conditional path. We theoretically show that, under idealized conditions, optimizing this objective recovers the optimal policy. Extensive experiments further demonstrate that our method performs robustly in practical scenarios, including high-dimensional control, multi-modal decision-making, and dynamically changing preferences over multiple objectives. Our discrete framework can also be applied to continuous-control problems through action quantization, providing a flexible trade-off between representational complexity and performance.
- Abstract(参考訳): 拡散モデルとフローマッチングに基づく生成ポリシーは、オフライン強化学習(RL)に強く期待されているが、その適用性は連続的な行動空間に限られている。
より広範囲のオフラインRL設定に対処するため、フローマッチングを複数の目的を持った個別のアクション空間をサポートする一般的なフレームワークに拡張する。
具体的には,連続フローを連続時間マルコフ連鎖に置き換え,Q重み付きフローマッチングの目的を用いて学習する。
次に,多エージェント設定に設計を拡張し,因子化条件付き経路による共同行動空間の指数的成長を緩和する。
理論的には、理想化された条件下では、この目的を最適化することが最適な政策を回復させることを示す。
さらに,本手法は,高次元制御,マルチモーダル意思決定,複数目的に対して動的に選好を変化させるなど,実践的なシナリオにおいて頑健に機能することを示した。
我々の離散的なフレームワークは、アクション量子化による連続的な制御問題にも適用でき、表現の複雑さと性能の間の柔軟なトレードオフを提供する。
関連論文リスト
- Latent Spherical Flow Policy for Reinforcement Learning with Combinatorial Actions [31.697208397735395]
既存のアプローチでは、タスク固有の値関数を制約付き最適化プログラムに組み込むか、決定論的構造化ポリシーを学習し、汎用性とポリシー表現性を犠牲にする。
本稿では, 設計による実現性を確保しつつ, 近代的な生成ポリシーの表現性をRLにもたらす, 解法による球面フローポリシーを提案する。
我々のアプローチは、さまざまな課題RLタスクにおいて、最先端のベースラインを平均20.6%上回る。
論文 参考訳(メタデータ) (2026-01-29T18:49:07Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces [52.649077293256795]
連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。
本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
論文 参考訳(メタデータ) (2024-10-21T07:13:45Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。