論文の概要: Preserve Support, Not Correspondence: Dynamic Routing for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.22229v1
- Date: Fri, 24 Apr 2026 05:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.347514
- Title: Preserve Support, Not Correspondence: Dynamic Routing for Offline Reinforcement Learning
- Title(参考訳): 対応しない保存支援:オフライン強化学習のための動的ルーティング
- Authors: Zhancun Mu, Guangyu Zhao, Yiwu Zhong, Chi Zhang,
- Abstract要約: 1ステップのオフラインRLアクターは、長い反復サンプリングを通したバックプロパゲートを避けるため、魅力的である。
本稿では,トップ1動的ルーティングを訓練した潜在条件付きワンステップアクタDROLを提案する。
- 参考スコア(独自算出の注目度): 11.929005952313261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One-step offline RL actors are attractive because they avoid backpropagating through long iterative samplers and keep inference cheap, but they still have to improve under a critic without drifting away from actions that the dataset can support. In recent one-step extraction pipelines, a strong iterative teacher provides one target action for each latent draw, and the same student output is asked to do both jobs: move toward higher Q and stay near that paired endpoint. If those two directions disagree, the loss resolves them as a compromise on that same sample, even when a nearby better action remains locally supported by the data. We propose DROL, a latent-conditioned one-step actor trained with top-1 dynamic routing. For each state, the actor samples $K$ candidate actions from a bounded latent prior, assigns each dataset action to its nearest candidate, and updates only that winner with Behavior Cloning and critic guidance. Because the routing is recomputed from the current candidate geometry, ownership of a supported region can shift across candidates over the course of learning. This gives a one-step actor room to make local improvements that pointwise extraction struggles to capture, while retaining single-pass inference at test time. On OGBench and D4RL, DROL is competitive with the one-step FQL baseline, improving many OGBench task groups while remaining strong on both AntMaze and Adroit. Project page: https://muzhancun.github.io/preprints/DROL.
- Abstract(参考訳): 1ステップのオフラインRLアクターは、長い反復的なサンプリングラによるバックプロパゲートを回避し、推論を安く保つため魅力的だが、データセットがサポートできるアクションから遠ざかることなく、批判の下で改善する必要がある。
最近の1ステップの抽出パイプラインでは、強力な反復的な教師が各潜在引き分けに対して1つのターゲットアクションを提供し、同じ学生出力が両方のジョブを実行するように要求される。
これら2つの方向が一致しない場合、データによって近接したより良いアクションがローカルにサポートされた場合でも、損失は同じサンプルに対する妥協として解決する。
本稿では,トップ1動的ルーティングを訓練した潜在条件付きワンステップアクタDROLを提案する。
各状態について、アクターは、境界付き潜在候補から$K$の候補アクションをサンプリングし、各データセットアクションを最も近い候補に割り当て、その勝者のみをビヘイビアクローンと批判ガイダンスで更新する。
ルーティングは現在の候補ジオメトリから再計算されるため、サポート対象領域のオーナシップは、学習の過程で候補間でシフトすることができる。
これにより、テスト時にシングルパス推論を保持しながら、ポイントワイズ抽出がキャプチャに苦労するローカル改善を行うためのワンステップアクタルームが提供される。
OGBenchとD4RLでは、DROLはワンステップのFQLベースラインと競合し、多くのOGBenchタスクグループを改善しながら、AntMazeとAdroitに強く依存している。
プロジェクトページ: https://muzhancun.github.io/preprints/DROL。
関連論文リスト
- Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning [10.037416068775853]
本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。
アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。
この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-12-03T17:05:58Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - Deep Reinforcement Learning with Gradient Eligibility Traces [28.93284550303061]
本稿では、$lambda$-returnに基づいて、一般化された$overlinetextPBE$目的を拡張し、マルチステップクレジット代入をサポートする。
我々は、経験的リプレイと互換性のあるフォワードビュー定式化と、ストリーミングアルゴリズムと互換性のある後方ビュー定式化の両方を提供する。
提案アルゴリズムは, MuJoCo 環境と MinAtar 環境においてPPO と StreamQ の両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-07-12T00:12:05Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。