論文の概要: Entropy-Regularized Adjoint Matching for Offline RL
- arxiv url: http://arxiv.org/abs/2605.06156v1
- Date: Thu, 07 May 2026 12:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.787956
- Title: Entropy-Regularized Adjoint Matching for Offline RL
- Title(参考訳): オフラインRLのためのエントロピー規則化随伴マッチング
- Authors: Abdelghani Ghanem, Mounir Ghogho,
- Abstract要約: 連続フローの定式化における制限に対処する統一フレームワークであるtextitMaximum Entropy Adjoint Matching (ME-AM) を提案する。
ME-AMは,(1)オフラインデータセットからの最適ポリシーの抽出を容易にするために人気バイアスを緩和するミラー・ディフレッシュ・エントロピー・オブジェクト,(2)テキスト・ミクチャー・ビヘイビア,(2)数学的に幾何学的支援を広げて分布外高次領域を包含する,という2つのメカニズムを取り入れている。
- 参考スコア(独自算出の注目度): 12.008878527093364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating expressive generative policies, such as flow-matching models, into offline reinforcement learning (RL) allows agents to capture complex, multi-modal behaviors. While Q-learning with Adjoint Matching (QAM) stabilizes policy optimization via the continuous adjoint method, it remains inherently bound to the fixed behavior distribution. This dependence induces a \textit{popularity bias} that can suppress high-reward actions in low-density regions, and creates a \textit{support binding} that restricts off-manifold exploration. Existing workarounds, such as appending \textit{residual} Gaussian policies, often re-introduce the expressivity bottlenecks associated with unimodal distributions. In this work, we propose \textit{Maximum Entropy Adjoint Matching} (ME-AM), a unified framework that addresses these limitations within the continuous flow formulation. ME-AM incorporates two mechanisms: (1) a Mirror Descent entropy maximization objective that mitigates the popularity bias to facilitate the extraction of optimal policies from offline datasets, and (2) a \textit{Mixture Behavior Prior} that mathematically broadens the geometric support to encompass out-of-distribution high-reward regions. By exploring this extended geometry, ME-AM identifies robust actions while preserving the absolute continuity of the generative vector field. Empirically, ME-AM demonstrates competitive or superior performance compared to prior state-of-the-art (SOTA) methods across a diverse suite of sparse-reward continuous control environments.
- Abstract(参考訳): フローマッチングモデルのような表現豊かな生成ポリシーをオフライン強化学習(RL)に統合することで、エージェントは複雑なマルチモーダルな振る舞いを捉えることができる。
Q-learning with Adjoint Matching (QAM) は連続的随伴法による政策最適化を安定化させるが、本質的には固定的な行動分布に縛られる。
この依存は、低密度領域における高逆作用を抑制することができる \textit{popularity bias} を誘導し、オフマンフォールド探索を制限する \textit{ supported binding} を生成する。
既存の回避策、例えば \textit{residual} Gaussian ポリシーの追加は、しばしば単調分布に関連する表現性ボトルネックを再導入する。
本稿では,連続フローの定式化において,これらの制約に対処する統一フレームワークである<textit{Maximum Entropy Adjoint Matching} (ME-AM)を提案する。
ME-AMは,(1) オフラインデータセットからの最適ポリシー抽出を容易にするために人気バイアスを緩和するミラー・ディフレッシブ・エントロピー最大化目標,(2) 幾何学的サポートを数学的に拡大し,分布外高次領域を包含する \textit{Mixture Behavior Prior} という2つのメカニズムを組み込んでいる。
この拡張幾何を探索することにより、ME-AMは生成ベクトル場の絶対連続性を保ちながら頑健な作用を識別する。
経験的に、ME-AMは、様々なスパース・リワード連続制御環境における従来の最先端(SOTA)手法と比較して、競争力や優れた性能を示す。
関連論文リスト
- Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling [3.6266846456338695]
最大エントロピー強化学習(MaxEnt RL)がシーケンシャル意思決定の標準フレームワークとなっている。
本稿では,ハイブリッド決定論的確率論的アーキテクチャに基づくフレームワークであるTrncated Rectified Flow Policyを提案する。
論文 参考訳(メタデータ) (2026-04-10T09:44:28Z) - Unsupervised Behavioral Compression: Learning Low-Dimensional Policy Manifolds through State-Occupancy Matching [42.26405543045843]
アクションベースのポリシー圧縮(APC)は、サンプル非効率であると広く認識されている。
我々は,行動表現を即時的行動マッチングから長期的状態空間カバレッジにシフトさせることにより,APCを向上させるOccupancy-based Policy Compression (OPC)を紹介した。
これらの修正により、生成モデルは真の機能的類似性を取り巻く潜在空間を整理し、幅広い振る舞いを一般化する潜在表現を促進する。
論文 参考訳(メタデータ) (2026-03-27T23:16:27Z) - From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space [78.36537400975298]
グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2026-03-13T04:35:13Z) - Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation [6.815406906400871]
マルチモーダルレコメンデーションは、ユーザ-イテムインタラクションとアイテムコンテンツを統合することでランキングを強化する。
既存のアプローチは、しばしば共有融合経路に依存し、絡み合った表現とモダリティの不均衡をもたらす。
マルチモーダルレコメンデーションのためのプログレッシブエントロピートリガー付きルーティングを用いた適応グラフエキスパートネットワークのモダリティ誘導混合を提案する。
論文 参考訳(メタデータ) (2026-02-24T09:36:45Z) - The Offline-Frontier Shift: Diagnosing Distributional Limits in Generative Multi-Objective Optimization [56.39938641873341]
生成法は, 世代間距離などの他の指標に対して, 進化的オルタナティブを系統的に過小評価することを示す。
この制限を克服するには、客観空間における分配外サンプリングが必要であると論じる。
本研究は, オフラインMOOを分散シフト制限問題として位置づけ, 生成最適化手法が失敗する原因と原因を理解するための診断レンズを提供する。
論文 参考訳(メタデータ) (2026-02-11T18:38:40Z) - Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Unified framework for continuity of sandwiched Rényi divergences [0.0]
サンドイッチした R'enyi の発散に関連するエントロピー量に対する連続性境界を証明した。
別個の寄与として、近似量子マルコフ鎖の安定性の研究にALAFF法を用いる。
論文 参考訳(メタデータ) (2023-08-23T21:09:54Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。