論文の概要: Faster Reinforcement Learning by Freezing Slow States
- arxiv url: http://arxiv.org/abs/2301.00922v2
- Date: Mon, 07 Apr 2025 18:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:40.475778
- Title: Faster Reinforcement Learning by Freezing Slow States
- Title(参考訳): 低温凍結による高速強化学習
- Authors: Yijia Wang, Daniel R. Jiang,
- Abstract要約: 我々は「高速な」構造を持つ無限水平マルコフ決定過程(MDP)について検討する。
我々は,低レベル計画の段階において,遅い状態を「凍結」する新しい近似手法を提案する。
- 参考スコア(独自算出の注目度): 3.9208771438083123
- License:
- Abstract: We study infinite horizon Markov decision processes (MDPs) with "fast-slow" structure, where some state variables evolve rapidly ("fast states") while others change more gradually ("slow states"). Such structure is common in real-world problems where sequential decisions need to be made at high frequencies over long horizons, where slowly evolving information also influences optimal decisions. Examples include inventory control under slowly changing demand, or dynamic pricing with gradually shifting consumer behavior. Modeling the problem at the natural decision frequency leads to MDPs with discount factors close to one, making them computationally challenging. We propose a novel approximation strategy that "freezes" slow states during a phase of lower-level planning, solving finite-horizon MDPs conditioned on a fixed slow state, and then applying value iteration to an auxiliary upper-level MDP that evolves on a slower timescale. Freezing states for short periods of time leads to easier-to-solve lower-level problems, while a slower upper-level timescale allows for a more favorable discount factor. On the theoretical side, we analyze the regret incurred by our frozen-state approach, which leads to simple insights on how to trade off computational budget versus regret. Empirically, we demonstrate that frozen-state methods produce high-quality policies with significantly less computation, and we show that simply omitting slow states is often a poor heuristic.
- Abstract(参考訳): 有限地平線マルコフ決定過程(MDP)を「高速な」構造で研究し、いくつかの状態変数が急速に進化する(高速な状態)一方、他の状態変数は徐々に変化する(スロー状態)。
このような構造は、長い地平線上で高い周波数でシーケンシャルな決定を行う必要がある実世界では一般的であり、ゆっくりと進化する情報もまた最適な決定に影響を及ぼす。
例えば、需要が徐々に変化する在庫管理や、消費者の振る舞いが徐々に変化する動的な価格設定などです。
自然決定頻度で問題をモデル化すると、割引係数が1に近いMDPが生まれ、計算的に困難になる。
提案手法は,低レベルプランニングの段階において,低レベルプランニングの段階において,低レベルプランニングの段階において,低レベルプランニングの段階において,低レベルプランニングの段階において,有限水平MDPを解き,その後,遅い時間スケールで進化する補助的上位レベルMDPに値反復を適用するという,新たな近似手法を提案する。
短時間の凍結状態は、より解決し易い低レベルの問題を引き起こす一方、より低い上位レベルの時間スケールはより好ましい割引係数を許容する。
理論的には、凍結状態のアプローチによって引き起こされた後悔を分析します。
実験により, 凍結状態法は計算量を大幅に減らした高品質なポリシーを導出することを示すとともに, 単に遅い状態を省略することはしばしばヒューリスティックな方法であることを示す。
関連論文リスト
- DiffIM: Differentiable Influence Minimization with Surrogate Modeling and Continuous Relaxation [23.06479920145709]
影響最小化(IMIN)は、ノード間の伝播を減らすために入力グラフの構造を操作する問題である。
DiffIMは、加速のための2つの異なるスキームを持つIMINの新しい手法である。
提案手法は,IMINの性能劣化をほとんど(あるいは全く)伴わず,性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-02-03T03:54:23Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - A physics-informed neural network method for the approximation of slow invariant manifolds for the general class of stiff systems of ODEs [0.0]
我々は、遅い不変多様体(SIM)の発見のための物理インフォームドニューラルネットワーク(PINN)アプローチを提案する。
削減順序のブラックボックスサロゲートモデルを構成する他の機械学習(ML)アプローチとは対照的に,我々のアプローチはベクトル場を高速かつ低速なコンポーネントに分解する。
提案手法は,QSSA,PEA,CSPが提供する手法よりも,同等あるいは高い精度でSIM近似を提供することを示す。
論文 参考訳(メタデータ) (2024-03-18T09:10:39Z) - Fast, Scalable, Warm-Start Semidefinite Programming with Spectral
Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。
USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2023-12-19T02:27:22Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based
Platforms [14.42787221783853]
本稿では、効率とレイテンシのバランスをとる動的グラフィックポリシーを提供することを目的とする。
提案されたソリューションは、消費電力とレイテンシのバランスをとる上で、顕著な柔軟性がある。
論文 参考訳(メタデータ) (2023-01-30T13:19:16Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。
我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文 参考訳(メタデータ) (2021-07-23T07:19:43Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。