論文の概要: Reinforcement Learning with Multi-Step Lookahead Information Via Adaptive Batching
- arxiv url: http://arxiv.org/abs/2601.10418v1
- Date: Thu, 15 Jan 2026 14:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.161084
- Title: Reinforcement Learning with Multi-Step Lookahead Information Via Adaptive Batching
- Title(参考訳): 適応バッチによるマルチステップルックアヘッド情報による強化学習
- Authors: Nadav Merlis,
- Abstract要約: 本研究では,複数段階のルックアヘッド情報を用いた強化学習問題について検討する。
最適ポリシーを見つけることはNPhardであり、事前定義されたサイズのチャンクでルックヘッドを処理し、予測制御をモデル化する、2つのトラクタブルのうちの1つを適用するのが一般的である。
- 参考スコア(独自算出の注目度): 14.374726649836747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study tabular reinforcement learning problems with multiple steps of lookahead information. Before acting, the learner observes $\ell$ steps of future transition and reward realizations: the exact state the agent would reach and the rewards it would collect under any possible course of action. While it has been shown that such information can drastically boost the value, finding the optimal policy is NP-hard, and it is common to apply one of two tractable heuristics: processing the lookahead in chunks of predefined sizes ('fixed batching policies'), and model predictive control. We first illustrate the problems with these two approaches and propose utilizing the lookahead in adaptive (state-dependent) batches; we refer to such policies as adaptive batching policies (ABPs). We derive the optimal Bellman equations for these strategies and design an optimistic regret-minimizing algorithm that enables learning the optimal ABP when interacting with unknown environments. Our regret bounds are order-optimal up to a potential factor of the lookahead horizon $\ell$, which can usually be considered a small constant.
- Abstract(参考訳): 本研究では,複数段階のルックアヘッド情報を用いた表層強化学習問題について検討する。
行動を起こす前に、学習者は将来の移行と報酬の実現の$$\ell$ステップを観察する。
このような情報が劇的に値を上げることは示されているが、最適ポリシーを見つけることはNPハードであり、事前定義されたサイズのチャンクでルックヘッドを処理し(「固定されたバッチポリシー」)、予測制御という2つのトラクタブルヒューリスティックの1つを適用するのが一般的である。
まず、これらの2つの手法の問題点を説明し、適応的(状態に依存した)バッチにおけるルックアヘッドの利用を提案し、適応的バッチポリシー(ABP)のようなポリシーについて述べる。
これらの戦略に対して最適なベルマン方程式を導出し、未知環境と相互作用する際の最適なAPP学習を可能にする楽観的な後悔最小化アルゴリズムを設計する。
我々の後悔境界は、通常小さな定数と見なすことができるルックアヘッド地平線$\ell$のポテンシャル因子まで順序最適である。
関連論文リスト
- On the hardness of RL with Lookahead [34.030963310653874]
そこで, エージェントは, アクションの行程を決定する前に, 任意の$ell$アクションの実行時にどの状態が訪問されるかを観察することができる。
このような情報は達成可能な性能を大幅に向上させることができるが、最適にこの情報を使用すると、潜在的に禁止的な計算コストがかかることを示す。
論文 参考訳(メタデータ) (2025-10-22T08:47:18Z) - Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization [42.2119634259269]
GRPOのような批判のないメソッドは、複数のロールアウトから利点を推定することでメモリ要求を減らすが、徐々に収束する傾向がある。
我々は、ポリシー最適化の効率を改善するために、グループ間で最も有益なサンプルとトークンを優先順位付けする textbfDynamic Dual-Level Down-Sampling (D$3$S) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T09:36:53Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Deep Reinforcement Learning for Stock Portfolio Optimization [0.0]
私たちは、タスクに強化学習を適切に適用できるように問題を定式化します。
市場に関する現実的な仮定を維持するためには、取引コストとリスクファクターを州にも組み込む予定です。
ストックサブセット選択のための最小分散ポートフォリオと多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2020-12-09T10:19:12Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。