論文の概要: Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.00686v2
- Date: Wed, 3 Apr 2024 14:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:43:37.912355
- Title: Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning
- Title(参考訳): 強化学習における価値関数の不確かさの促進を目的とした最大平均差バリーセンタの利用
- Authors: Srinjoy Roy, Swagatam Das,
- Abstract要約: 本稿では,不確実性伝播に対するワッサースタインQラーニング(WQL)を改善するために,最大平均離散Qラーニング(MMD-QL)を提案する。
深層ネットワークをMDD-QLに組み込んでMDDQ-Network(MMD-QN)を作成します。
Atariゲームに挑戦する実験の結果、MDD-QNはベンチマークの深いRLアルゴリズムと比較してよく機能していることが示された。
- 参考スコア(独自算出の注目度): 16.75089998678061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accounting for the uncertainty of value functions boosts exploration in Reinforcement Learning (RL). Our work introduces Maximum Mean Discrepancy Q-Learning (MMD-QL) to improve Wasserstein Q-Learning (WQL) for uncertainty propagation during Temporal Difference (TD) updates. MMD-QL uses the MMD barycenter for this purpose, as MMD provides a tighter estimate of closeness between probability measures than the Wasserstein distance. Firstly, we establish that MMD-QL is Probably Approximately Correct in MDP (PAC-MDP) under the average loss metric. Concerning the accumulated rewards, experiments on tabular environments show that MMD-QL outperforms WQL and other algorithms. Secondly, we incorporate deep networks into MMD-QL to create MMD Q-Network (MMD-QN). Making reasonable assumptions, we analyze the convergence rates of MMD-QN using function approximation. Empirical results on challenging Atari games demonstrate that MMD-QN performs well compared to benchmark deep RL algorithms, highlighting its effectiveness in handling large state-action spaces.
- Abstract(参考訳): 価値関数の不確実性の会計は、強化学習(RL)における探索を促進する。
本研究は,時間差(TD)更新時の不確実性伝搬に対するワッサースタインQラーニング(WQL)を改善するために,最大平均離散Qラーニング(MMD-QL)を提案する。
MMD-QLはこの目的のためにMDDバリーセンタを使用し、MDDはワッサーシュタイン距離よりも確率測度間の密接度を厳密に見積もっている。
まず, MMD-QL が平均損失量で MDP (PAC-MDP) のほぼ正当であることが確認された。
累積報酬に関して、表環境の実験では、MDD-QLがWQLやその他のアルゴリズムより優れていることが示されている。
次に、深層ネットワークをMDD-QLに組み込んで、MDD Q-Network(MMD-QN)を作成する。
妥当な仮定を仮定し,関数近似を用いてMDD-QNの収束速度を解析する。
Atariゲームにおける実験的な結果から,MDD-QNはベンチマークの深いRLアルゴリズムと比較して高い性能を示し,大きな状態対応空間を扱う上での有効性を強調した。
関連論文リスト
- Computational-Statistical Trade-off in Kernel Two-Sample Testing with Random Fourier Features [3.744589644319257]
MMD(Maximum Mean Discrepancy)テストは、複雑で高次元のデータを扱う効果的なツールとして登場した。
MMD試験と同じ出力保証を準4次時間で達成できるかどうかは不明だ。
準4次時間内にMDD試験と同じミニマックス分離率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T04:08:01Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - A Concentration Inequality for Maximum Mean Discrepancy (MMD)-based Statistics and Its Application in Generative Models [4.757470449749877]
最大平均離散性(MMD)に基づく推定器群に対する一様濃度不等式を提案する。
我々の不等式はMDDに基づく生成モデルの理論的解析における効率的なツールとして機能する。
論文 参考訳(メタデータ) (2024-05-22T22:41:56Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Maximum Mean Discrepancy on Exponential Windows for Online Change Detection [3.1631981412766335]
MMDEW (Maximum Mean Discrepancy on Exponential Windows) と呼ばれる新しい変更検出アルゴリズムを提案する。
MMDEWは、MDDの利点と指数窓に基づく効率的な計算を組み合わせる。
MMDEWは多対数実行時と対数メモリの複雑さを満足しており、ベンチマークデータストリーム上でのテクニックの状態を実証的に上回ることを示す。
論文 参考訳(メタデータ) (2022-05-25T12:02:59Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Multi-document Summarization with Maximal Marginal Relevance-guided
Reinforcement Learning [54.446686397551275]
RL-MMRは、古典的MDSで使用される高度な神経SDS法と統計測度を統一する。
RL-MMRは、より少ない有望な候補にMMRガイダンスを投入し、探索空間を抑え、より良い表現学習をもたらす。
論文 参考訳(メタデータ) (2020-09-30T21:50:46Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。