論文の概要: Stochastic Gradient Descent with Adaptive Data
- arxiv url: http://arxiv.org/abs/2410.01195v1
- Date: Wed, 2 Oct 2024 02:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:40:58.359859
- Title: Stochastic Gradient Descent with Adaptive Data
- Title(参考訳): アダプティブデータを用いた確率的グラディエントDescence
- Authors: Ethan Che, Jing Dong, Xin T. Tong,
- Abstract要約: 勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
- 参考スコア(独自算出の注目度): 4.119418481809095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is a powerful optimization technique that is particularly useful in online learning scenarios. Its convergence analysis is relatively well understood under the assumption that the data samples are independent and identically distributed (iid). However, applying SGD to policy optimization problems in operations research involves a distinct challenge: the policy changes the environment and thereby affects the data used to update the policy. The adaptively generated data stream involves samples that are non-stationary, no longer independent from each other, and affected by previous decisions. The influence of previous decisions on the data generated introduces bias in the gradient estimate, which presents a potential source of instability for online learning not present in the iid case. In this paper, we introduce simple criteria for the adaptively generated data stream to guarantee the convergence of SGD. We show that the convergence speed of SGD with adaptive data is largely similar to the classical iid setting, as long as the mixing time of the policy-induced dynamics is factored in. Our Lyapunov-function analysis allows one to translate existing stability analysis of stochastic systems studied in operations research into convergence rates for SGD, and we demonstrate this for queueing and inventory management problems. We also showcase how our result can be applied to study the sample complexity of an actor-critic policy gradient algorithm.
- Abstract(参考訳): 確率勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
その収束解析は、データサンプルが独立で同一に分散している(iid)という仮定の下で比較的よく理解されている。
しかし、運用研究における政策最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
適応的に生成されたデータストリームは、非定常的で、もはや互いに独立せず、以前の決定の影響を受けないサンプルを含んでいる。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
本稿では、SGDの収束を保証するために、適応的に生成されたデータストリームの簡単な基準を導入する。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
我々のリアプノフ関数解析は、SGDの収束率に関する操作研究で研究された確率システムの既存の安定性解析を変換し、キューおよび在庫管理問題に対してこれを実証する。
また,アクタ-批判的ポリシー勾配アルゴリズムのサンプル複雑性を解析するために,我々の結果がどのように適用できるかを示す。
関連論文リスト
- Adaptive Data Analysis for Growing Data [19.68686581348877]
適応的なデータの再利用は、過度な適合と統計的妥当性に関する問題を引き起こす。
本稿では、動的データ設定における適応解析のための第一一般化境界について述べる。
論文 参考訳(メタデータ) (2024-05-22T06:17:58Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Unleashing the Power of Graph Data Augmentation on Covariate
Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。
AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文 参考訳(メタデータ) (2022-11-05T07:55:55Z) - On the Sparse DAG Structure Learning Based on Adaptive Lasso [39.31370830038554]
適応NOTEARS[30]という,事前定義されたしきい値のないデータ駆動型DAG構造学習手法を開発した。
適応型NOTEARSは特定の条件下でのオラクル特性を享受できることを示し, シミュレーションの結果, エッジのギャップをゼロに設定することなく, 提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-09-07T05:47:59Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。