論文の概要: Approximating Martingale Process for Variance Reduction in Deep
Reinforcement Learning with Large State Space
- arxiv url: http://arxiv.org/abs/2211.15886v1
- Date: Tue, 29 Nov 2022 02:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 18:09:34.219031
- Title: Approximating Martingale Process for Variance Reduction in Deep
Reinforcement Learning with Large State Space
- Title(参考訳): 大規模状態空間を用いた深層強化学習における分散低減のためのmartingaleプロセス近似
- Authors: Charlie Ruan
- Abstract要約: Martingale Process (AMP) の近似は強化学習(RL)における分散低減に有効であることが証明されている。
本稿では,状態遷移を考慮した場合,状態空間が大きく,不確実性を有するシステムを考える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximating Martingale Process (AMP) is proven to be effective for variance
reduction in reinforcement learning (RL) in specific cases such as Multiclass
Queueing Networks. However, in the already proven cases, the state space is
relatively small and all possible state transitions can be iterated through. In
this paper, we consider systems in which state space is large and have
uncertainties when considering state transitions, thus making AMP a generalized
variance-reduction method in RL. Specifically, we will investigate the
application of AMP in ride-hailing systems like Uber, where Proximal Policy
Optimization (PPO) is incorporated to optimize the policy of matching drivers
and customers.
- Abstract(参考訳): Martingale Process (AMP) の近似は, マルチクラス待ち行列ネットワークなど特定の事例における強化学習(RL)の分散低減に有効であることが証明されている。
しかし、既に証明されたケースでは、状態空間は比較的小さく、全ての可能な状態遷移を反復することができる。
本稿では,状態空間が大きく,状態遷移を考慮した場合の不確実性を有するシステムについて考察する。
具体的には、ドライバーと顧客のポリシーを最適化するために、PPO(Proximal Policy Optimization)が組み込まれているUberのような配車システムにおけるAMPの適用について検討する。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Optimal Scaling for Locally Balanced Proposals in Discrete Spaces [65.14092237705476]
離散空間におけるMetropolis-Hastings (M-H) アルゴリズムの効率は、対象分布に依存しない受容率によって特徴づけられることを示す。
最適受容率の知識は、連続空間におけるステップサイズ制御と直接的に類似して、離散空間における提案分布の近傍サイズを自動的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-09-16T22:09:53Z) - Sufficient Statistic Memory Approximate Message Passing [5.708490209087275]
AMP型アルゴリズムの重要な特徴は、それらの力学が状態進化によって正しく記述できることである。
本稿では,十分な統計条件下でのメモリAMP(MAMP)を提案する。
論文 参考訳(メタデータ) (2022-06-23T13:06:00Z) - Sufficient-Statistic Memory AMP [12.579567275436343]
AMP型アルゴリズムの重要な特徴は、それらの力学が状態進化によって正しく記述できることである。
本稿では,十分に統計的なメモリAMP(SS-MAMP)アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-31T07:25:18Z) - Common Information based Approximate State Representations in
Multi-Agent Reinforcement Learning [3.086462790971422]
我々は、分散化されたポリシーを構築可能な共通およびプライベートな状態表現を近似した汎用的な圧縮フレームワークを開発する。
その結果,「分散分散実行の分散学習」方式で,実用的に有用なディープMARLネットワーク構造の設計に光を当てた。
論文 参考訳(メタデータ) (2021-10-25T02:32:06Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Rigorous State Evolution Analysis for Approximate Message Passing with
Side Information [15.90775344965397]
サイド情報をAMP-SI(Adroximate Message Passing with Side Information)に組み込んだ新しいフレームワークが導入された。
信号とSIペアの間に統計的依存関係がある場合、AMP-SIに対して厳密な性能保証を提供する。
AMP-SI平均二乗誤差を精度良く予測できることを示す。
論文 参考訳(メタデータ) (2020-03-25T16:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。