論文の概要: Understanding the Impact of Data Distribution on Q-learning with
Function Approximation
- arxiv url: http://arxiv.org/abs/2111.11758v1
- Date: Tue, 23 Nov 2021 10:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:18:03.434401
- Title: Understanding the Impact of Data Distribution on Q-learning with
Function Approximation
- Title(参考訳): 関数近似を用いたQ学習におけるデータ分布の影響の理解
- Authors: Pedro P. Santos, Francisco S. Melo, Alberto Sardinha, Diogo S.
Carvalho
- Abstract要約: 関数近似を用いて,データ分布とQラーニングに基づくアルゴリズムの相互作用について検討する。
我々は,Q-ラーニングアルゴリズムの性能におけるデータ分布の影響を強調した,新しい4状態MDPを提案する。
オフライン深層Q-ネットワークアルゴリズムの性能に及ぼすデータ分散特性の影響を実験的に評価する。
- 参考スコア(独自算出の注目度): 3.666599339851663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus our attention on the study of the interplay between
the data distribution and Q-learning-based algorithms with function
approximation. We provide a theoretical and empirical analysis as to why
different properties of the data distribution can contribute to regulating
sources of algorithmic instability. First, we revisit theoretical bounds on the
performance of approximate dynamic programming algorithms. Second, we provide a
novel four-state MDP that highlights the impact of the data distribution in the
performance of a Q-learning algorithm with function approximation, both in
online and offline settings. Finally, we experimentally assess the impact of
the data distribution properties in the performance of an offline deep
Q-network algorithm. Our results show that: (i) the data distribution needs to
possess certain properties in order to robustly learn in an offline setting,
namely low distance to the distributions induced by optimal policies of the MDP
and high coverage over the state-action space; and (ii) high entropy data
distributions can contribute to mitigating sources of algorithmic instability.
- Abstract(参考訳): 本研究では,関数近似を用いたQラーニングアルゴリズムとデータ分布の相互作用に関する研究に焦点をあてる。
本稿では,データ分布の異なる特性がアルゴリズムの不安定性の制御源に寄与する理由を理論的かつ実証的に分析する。
まず、近似動的プログラミングアルゴリズムの性能に関する理論的境界を再検討する。
第2に、オンラインとオフラインの両方で関数近似を用いたQ-ラーニングアルゴリズムの性能にデータ分散が及ぼす影響を強調した、新しい4状態MDPを提供する。
最後に、オフライン深層Q-ネットワークアルゴリズムの性能におけるデータ分散特性の影響を実験的に評価する。
結果はこう示しています
i) データ分布は、オフライン環境で、すなわち、MDPの最適方針によって引き起こされる分布と、状態-作用空間に対する高いカバレッジとを確実に学習するために、特定の特性を持つ必要がある。
(ii)高エントロピーデータ分布はアルゴリズム不安定の原因の緩和に寄与する。
関連論文リスト
- Structured Prediction in Online Learning [66.36004256710824]
オンライン学習環境における構造化予測のための理論的・アルゴリズム的枠組みについて検討する。
このアルゴリズムは教師付き学習環境からの最適アルゴリズムの一般化であることを示す。
本稿では,非定常データ分布,特に逆データを含む2番目のアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2024-06-18T07:45:02Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Cross-feature Contrastive Loss for Decentralized Deep Learning on
Heterogeneous Data [8.946847190099206]
異種データに基づく分散学習のための新しい手法を提案する。
一対の隣接するエージェントのクロスフィーチャーは、他のエージェントのモデルパラメータに関するエージェントのデータから得られる特徴である。
実験の結果,提案手法は異種データを用いた分散学習手法に比べて性能(テスト精度が0.2~4%向上)が優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T14:48:23Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Incremental Permutation Feature Importance (iPFI): Towards Online
Explanations on Data Streams [8.49072000414555]
私たちはデータを段階的にサンプリングし、バッチモードではなく漸進的に学習する動的なシナリオに興味を持っています。
本研究では,特徴量重要度(PFI)に類似した特徴量の特徴残差化に基づく,特徴量重要度(FI)尺度の効率的なインクリメンタルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-05T12:34:27Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。