論文の概要: Markov flow policy -- deep MC
- arxiv url: http://arxiv.org/abs/2405.00877v2
- Date: Sun, 2 Jun 2024 19:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:58:30.789137
- Title: Markov flow policy -- deep MC
- Title(参考訳): Markov Flow Policy -- Deep MC
- Authors: Nitsan Soffair, Gilad Katz,
- Abstract要約: 分散アルゴリズムは、短期的な推定に依存するため、しばしば評価誤差に遭遇する。
我々は、非負のニューラルネットワークフローを利用して総合的な前方視予測を可能にするマルコフフローポリシーを提案する。
- 参考スコア(独自算出の注目度): 4.318555434063273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discounted algorithms often encounter evaluation errors due to their reliance on short-term estimations, which can impede their efficacy in addressing simple, short-term tasks and impose undesired temporal discounts (\(\gamma\)). Interestingly, these algorithms are often tested without applying a discount, a phenomenon we refer as the \textit{train-test bias}. In response to these challenges, we propose the Markov Flow Policy, which utilizes a non-negative neural network flow to enable comprehensive forward-view predictions. Through integration into the TD7 codebase and evaluation using the MuJoCo benchmark, we observe significant performance improvements, positioning MFP as a straightforward, practical, and easily implementable solution within the domain of average rewards algorithms.
- Abstract(参考訳): 分散アルゴリズムは、短期的な推定に依存するため、しばしば評価エラーに遭遇し、単純で短期的なタスクに対処し、望ましくない時間的割引(\(\gamma\))を課す効果を阻害する。
興味深いことに、これらのアルゴリズムは割引を適用することなくテストされることが多く、これは \textit{train-test bias} と呼ばれる現象である。
これらの課題に対応するために、我々は、非負のニューラルネットワークフローを利用して総合的な前方視予測を可能にするマルコフフローポリシーを提案する。
TD7コードベースへの統合と MuJoCo ベンチマークによる評価を通じて,MFP を平均報酬アルゴリズムの領域内での単純で実践的で実装が容易なソリューションとして位置づけ,大幅なパフォーマンス向上を観測した。
関連論文リスト
- Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL
with Continuous Action Domains [0.0]
本稿では,Q-Functionalsのアイデアに触発された新しいマルチエージェント値ベースアルゴリズム,Mixed Q-Functionals(MQF)を提案する。
本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。
実験の結果、MQFはDeep Deterministic Policy Gradientの4つの変種より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-12T16:21:50Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - IBP Regularization for Verified Adversarial Robustness via
Branch-and-Bound [85.6899802468343]
IBP-Rは, どちらも簡便なトレーニングアルゴリズムである。
また、$beta$-CROWNに基づく新しいロバスト性であるUPBを提示し、最先端の分岐アルゴリズムのコストを削減する。
論文 参考訳(メタデータ) (2022-06-29T17:13:25Z) - Fast and Robust Sparsity Learning over Networks: A Decentralized
Surrogate Median Regression Approach [10.850336820582678]
本稿では、分散化空間学習問題を効率的に解くために、分散化代理中央回帰法(deSMR)を提案する。
提案アルゴリズムは,簡単な実装で線形収束率を満足する。
また,スパース・サポート・リカバリの理論的結果も確立した。
論文 参考訳(メタデータ) (2022-02-11T08:16:01Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z) - Managing caching strategies for stream reasoning with reinforcement
learning [18.998260813058305]
ストリーム推論は、継続的なデータ変更よりも効率的な意思決定を可能にする。
我々は、衝突駆動制約学習(CDCL)を用いてレガシーソリューションを効率的に更新する新しいアプローチを提案する。
特に,強化学習の適用性について検討し,学習制約の有用性を継続的に評価する。
論文 参考訳(メタデータ) (2020-08-07T15:01:41Z) - Study of Diffusion Normalized Least Mean M-estimate Algorithms [0.8749675983608171]
本研究では,修正ハマー関数に基づく拡散正規化最小平均M推定アルゴリズムを提案する。
我々は,アルゴリズムの過渡的,定常的,安定的な挙動を統一的なフレームワークで解析する。
様々なインパルスノイズシナリオのシミュレーションでは、提案アルゴリズムは既存の拡散アルゴリズムよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-20T00:28:41Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。