論文の概要: Lever: Inference-Time Policy Reuse under Support Constraints
- arxiv url: http://arxiv.org/abs/2604.20174v1
- Date: Wed, 22 Apr 2026 04:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.965142
- Title: Lever: Inference-Time Policy Reuse under Support Constraints
- Title(参考訳): Lever: サポート制約下での推論時ポリシー再利用
- Authors: Ihor Vitenki, Noha Ibrahim, Sihem Amer-Yahia,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) の方針は、通常、一定の目的のために訓練され、タスク要求が変化すると再利用が困難になる。
事前学習されたポリシーのライブラリと新しい複合的な目的を前提に、高品質なポリシーを追加の環境相互作用なしに完全にオフラインで構築できるのか?
我々は、関連するポリシーを検索し、行動埋め込みを用いてそれらを評価し、オフラインQ値合成を介して新しいポリシーを構成する、エンドツーエンドのフレームワークであるleverを紹介した。
- 参考スコア(独自算出の注目度): 8.884389224195912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) policies are typically trained for fixed objectives, making reuse difficult when task requirements change. We study inference-time policy reuse: given a library of pre-trained policies and a new composite objective, can a high-quality policy be constructed entirely offline, without additional environment interaction? We introduce lever (Leveraging Efficient Vector Embeddings for Reusable policies), an end-to-end framework that retrieves relevant policies, evaluates them using behavioral embeddings, and composes new policies via offline Q-value composition. We focus on the support-limited regime, where no value propagation is possible, and show that the effectiveness of reuse depends critically on the coverage of available transitions. To balance performance and computational cost, lever proposes composition strategies that control the exploration of candidate policies. Experiments in deterministic GridWorld environments show that inference-time composition can match, and in some cases exceed, training-from-scratch performance while providing substantial speedups. At the same time, performance degrades when long-horizon dependencies require value propagation, highlighting a fundamental limitation of offline reuse.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) の方針は、通常、一定の目的のために訓練され、タスク要求が変化すると再利用が困難になる。
事前学習されたポリシーのライブラリと新しい複合的な目的を前提に、高品質なポリシーを追加の環境相互作用なしに完全にオフラインで構築できるのか?
我々は、関連するポリシーを検索し、行動埋め込みを用いてそれらを評価し、オフラインQ値合成を介して新しいポリシーを構成するエンド・ツー・エンドのフレームワークであるレバー(Leveraging Efficient Vector Embeddings for Reusable Policy)を紹介する。
我々は,価値伝播が不可能なサポート限定型体制に注目し,再利用の有効性は利用可能な移行のカバレッジに大きく依存することを示す。
性能と計算コストのバランスをとるために、レバーは候補ポリシーの探索を制御する構成戦略を提案する。
決定論的GridWorld環境での実験では、推論時間の構成が一致し、場合によってはスクラッチのパフォーマンスを上回り、相当なスピードアップを提供する。
同時に、長い水平依存関係が値の伝搬を必要とする場合のパフォーマンスが低下し、オフライン再利用の基本的な制限が強調される。
関連論文リスト
- Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning [1.618563064839635]
我々は、行動的に多様なポリシー地区をタスクごとのアーカイブに整理する連続的なRLフレームワークであるtextscTeLAPA(Transfer-Enabled Latent-Aligned Policy Archives)を紹介する。
我々のMiniGrid CL設定では、textscTeLAPAはより多くのタスクを正常に学習し、干渉後の修正タスクの能力回復を高速化し、タスクのシーケンス間で高いパフォーマンスを維持する。
論文 参考訳(メタデータ) (2026-04-16T17:06:54Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Policy Constraint by Only Support Constraint for Offline Reinforcement Learning [11.006709826558465]
本稿では,行動政策支援における学習政策の総確率の最大化から導かれる,唯一の支援制約(OSC)について述べる。
OSCは、分散シフトに伴う課題を緩和し、政策制約の保守性を緩和し、パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-03-07T07:55:51Z) - Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Co-learning Planning and Control Policies Constrained by Differentiable
Logic Specifications [4.12484724941528]
本稿では,高次元ロボットナビゲーションタスクを解くための新しい強化学習手法を提案する。
既存の強化学習アルゴリズムと比較して、より少ないサンプルで高品質なポリシーを訓練する。
提案手法は,高次元制御と政策アライメントによる準最適政策の回避にも有効である。
論文 参考訳(メタデータ) (2023-03-02T15:24:24Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。