Fugu-MT 論文翻訳(概要): Faster Reinforcement Learning by Freezing Slow States

論文の概要: Faster Reinforcement Learning by Freezing Slow States

arxiv url: http://arxiv.org/abs/2301.00922v2
Date: Mon, 07 Apr 2025 18:55:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 06:18:36.891732
Title: Faster Reinforcement Learning by Freezing Slow States
Title（参考訳）: 低温凍結による高速強化学習
Authors: Yijia Wang, Daniel R. Jiang,
Abstract要約: 我々は「高速な」構造を持つ無限水平マルコフ決定過程(MDP)について検討する。我々は,低レベル計画の段階において,遅い状態を「凍結」する新しい近似手法を提案する。
参考スコア（独自算出の注目度）: 3.9208771438083123
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study infinite horizon Markov decision processes (MDPs) with "fast-slow" structure, where some state variables evolve rapidly ("fast states") while others change more gradually ("slow states"). Such structure is common in real-world problems where sequential decisions need to be made at high frequencies over long horizons, where slowly evolving information also influences optimal decisions. Examples include inventory control under slowly changing demand, or dynamic pricing with gradually shifting consumer behavior. Modeling the problem at the natural decision frequency leads to MDPs with discount factors close to one, making them computationally challenging. We propose a novel approximation strategy that "freezes" slow states during a phase of lower-level planning, solving finite-horizon MDPs conditioned on a fixed slow state, and then applying value iteration to an auxiliary upper-level MDP that evolves on a slower timescale. Freezing states for short periods of time leads to easier-to-solve lower-level problems, while a slower upper-level timescale allows for a more favorable discount factor. On the theoretical side, we analyze the regret incurred by our frozen-state approach, which leads to simple insights on how to trade off computational budget versus regret. Empirically, we demonstrate that frozen-state methods produce high-quality policies with significantly less computation, and we show that simply omitting slow states is often a poor heuristic.
Abstract（参考訳）: 有限地平線マルコフ決定過程(MDP)を「高速な」構造で研究し、いくつかの状態変数が急速に進化する(高速な状態)一方、他の状態変数は徐々に変化する(スロー状態)。このような構造は、長い地平線上で高い周波数でシーケンシャルな決定を行う必要がある実世界では一般的であり、ゆっくりと進化する情報もまた最適な決定に影響を及ぼす。例えば、需要が徐々に変化する在庫管理や、消費者の振る舞いが徐々に変化する動的な価格設定などです。自然決定頻度で問題をモデル化すると、割引係数が1に近いMDPが生まれ、計算的に困難になる。提案手法は,低レベルプランニングの段階において,低レベルプランニングの段階において,低レベルプランニングの段階において,低レベルプランニングの段階において,低レベルプランニングの段階において,有限水平MDPを解き,その後,遅い時間スケールで進化する補助的上位レベルMDPに値反復を適用するという,新たな近似手法を提案する。短時間の凍結状態は、より解決し易い低レベルの問題を引き起こす一方、より低い上位レベルの時間スケールはより好ましい割引係数を許容する。理論的には、凍結状態のアプローチによって引き起こされた後悔を分析します。実験により, 凍結状態法は計算量を大幅に減らした高品質なポリシーを導出することを示すとともに, 単に遅い状態を省略することはしばしばヒューリスティックな方法であることを示す。

関連論文リスト

MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文参考訳（メタデータ） (2025-06-08T17:54:33Z)
OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。しばしば最適化の課題を提起するが、収束性は低い。推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文参考訳（メタデータ） (2024-12-13T18:55:19Z)
Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文参考訳（メタデータ） (2024-10-07T16:49:39Z)
Accelerating Dissipative State Preparation with Adaptive Open Quantum Dynamics [0.0]
様々な散発的な状態準備スキームは、基本的な時間的絡み合いのトレードオフに悩まされている。我々は、このトレードオフを完全に回避するために、最小限の適応力学を使用する方法を示す。
論文参考訳（メタデータ） (2024-09-09T19:11:07Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [4.156757591117864]
本稿では,問題に対する仮定を最小化しながら,改善された後悔境界を実現する新しいアルゴリズムを提案する。本手法は, 一般関数空間を考慮し, 動的価格設定によく用いられる線形評価モデルを超えて拡張する。
論文参考訳（メタデータ） (2024-06-24T23:43:56Z)
A physics-informed neural network method for the approximation of slow invariant manifolds for the general class of stiff systems of ODEs [0.0]
我々は、遅い不変多様体(SIM)の発見のための物理インフォームドニューラルネットワーク(PINN)アプローチを提案する。削減順序のブラックボックスサロゲートモデルを構成する他の機械学習(ML)アプローチとは対照的に,我々のアプローチはベクトル場を高速かつ低速なコンポーネントに分解する。提案手法は,QSSA,PEA,CSPが提供する手法よりも,同等あるいは高い精度でSIM近似を提供することを示す。
論文参考訳（メタデータ） (2024-03-18T09:10:39Z)
Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。 USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文参考訳（メタデータ） (2023-12-19T02:27:22Z)
StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。 StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文参考訳（メタデータ） (2023-11-28T07:53:51Z)
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文参考訳（メタデータ） (2023-11-27T12:59:52Z)
Non-stationary Reinforcement Learning under General Function Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。 SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文参考訳（メタデータ） (2023-06-01T16:19:37Z)
Initial-state-dependent quantum speed limit for dissipative state preparation: Framework and optimization [6.211723927647019]
我々は、エネルギー固有状態の1つであるマルコフ散逸状態準備スキームに焦点をあてる。我々は、実際の進化時間のより洗練された測定値を提供する初期状態依存量子速度制限(QSL)を導出する。本稿では,ベル状態作成のための散逸型Rydberg原子系において,我々の戦略の有効性を実証する。
論文参考訳（メタデータ） (2023-03-23T00:19:32Z)
Intermittently Observable Markov Decision Processes [17.75610745277615]
本稿では,制御者が信頼できない通信チャネルを通じてプロセスの状態情報を知覚するシナリオについて考察する。地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。木MDPに対する2つの有限状態近似を開発し,その近似を効率的に求める。
論文参考訳（メタデータ） (2023-02-23T03:38:03Z)
Toward Efficient Gradient-Based Value Estimation [4.365720395124051]
強化学習における値推定の勾配に基づく手法は、時間差(TD)学習法よりも典型的にはるかに遅い。この速度の根本原因について検討し,メアン・スクエア・ベルマン・エラー(MSBE)がヘッセンの条件数が大きいという意味で不条件損失関数であることを示す。本稿では,ガウス・ニュートン方向をほぼ追従し,パラメータ化に頑健な,低複雑性なバッチフリー近似法を提案する。 RANSと呼ばれる本アルゴリズムは, ほぼ同一でありながら, 残留勾配法よりもかなり高速であるという意味で, 効率的である。
論文参考訳（メタデータ） (2023-01-31T16:45:49Z)
SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based Platforms [14.42787221783853]
本稿では、効率とレイテンシのバランスをとる動的グラフィックポリシーを提供することを目的とする。提案されたソリューションは、消費電力とレイテンシのバランスをとる上で、顕著な柔軟性がある。
論文参考訳（メタデータ） (2023-01-30T13:19:16Z)
Shortcuts to adiabatic population inversion via time-rescaling: stability and thermodynamic cost [0.0]
本研究では,2レベル量子系の集団反転を高速化する問題について検討する。制御パラメータの系統的誤差に対する力学の忠実さは、他のSTAスキームと同等であることが示されている。
論文参考訳（メタデータ） (2022-04-29T20:27:02Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文参考訳（メタデータ） (2021-07-23T07:19:43Z)
A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文参考訳（メタデータ） (2021-06-24T13:46:09Z)
Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文参考訳（メタデータ） (2021-01-28T13:35:37Z)
Time-Varying Parameters as Ridge Regressions [0.0]
時間変化パラメータ(TVP)モデルは、構造変化を捉えるためにしばしば経済学で使用される。これらは実際にはリッジレグレッションである、かなり未使用の事実を強調します。カナダにおける金融政策の進化を、大きな時間変動の局地予測を用いて研究するために使います。
論文参考訳（メタデータ） (2020-09-01T13:07:04Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文参考訳（メタデータ） (2020-06-24T13:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。