論文の概要: Reward Shaping via Diffusion Process in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.11885v1
- Date: Tue, 20 Jun 2023 20:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:45:09.157972
- Title: Reward Shaping via Diffusion Process in Reinforcement Learning
- Title(参考訳): 強化学習における拡散過程による逆整形
- Authors: Peeyush Kumar
- Abstract要約: 熱力学とシステム力学の原理を利用して、拡散過程による報酬形成を探求する。
本稿では,情報エントロピー,システムダイナミクス,およびそれらがエントロピー生産に与える影響について光を当てる。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) models have continually evolved to navigate the
exploration - exploitation trade-off in uncertain Markov Decision Processes
(MDPs). In this study, I leverage the principles of stochastic thermodynamics
and system dynamics to explore reward shaping via diffusion processes. This
provides an elegant framework as a way to think about exploration-exploitation
trade-off. This article sheds light on relationships between information
entropy, stochastic system dynamics, and their influences on entropy
production. This exploration allows us to construct a dual-pronged framework
that can be interpreted as either a maximum entropy program for deriving
efficient policies or a modified cost optimization program accounting for
informational costs and benefits. This work presents a novel perspective on the
physical nature of information and its implications for online learning in
MDPs, consequently providing a better understanding of information-oriented
formulations in RL.
- Abstract(参考訳): 強化学習(RL)モデルは、不確実なマルコフ決定プロセス(MDP)におけるエクスプロイトのトレードオフをナビゲートするために、継続的に進化してきた。
本研究では,確率的熱力学とシステム力学の原理を活用し,拡散過程による報酬形成を探求する。
これは探査と探索のトレードオフを考える方法としてエレガントなフレームワークを提供する。
本稿では,情報エントロピー,確率システムダイナミクス,およびエントロピー生成への影響について考察する。
この調査により、効率的なポリシーを導出するための最大エントロピープログラムか、情報コストと利益を考慮した修正コスト最適化プログラムのいずれかとして解釈できるデュアルプロングフレームワークを構築することができる。
本研究は,mdpにおける情報の物理的性質とそのオンライン学習への意味に関する新たな視点を示し,rlにおける情報指向定式化の理解を深める。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Interpretable and Explainable Machine Learning Methods for Predictive
Process Monitoring: A Systematic Literature Review [1.3812010983144802]
本稿では,機械学習モデル(ML)の予測プロセスマイニングの文脈における説明可能性と解釈可能性について,系統的に検討する。
我々は、様々なアプリケーション領域にまたがる現在の方法論とその応用の概要を概観する。
我々の研究は、プロセス分析のためのより信頼性が高く透明で効果的なインテリジェントシステムの開発と実装方法について、研究者や実践者がより深く理解することを目的としている。
論文 参考訳(メタデータ) (2023-12-29T12:43:43Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Stochastic Thermodynamics of Learning Parametric Probabilistic Models [0.0]
本稿では,PPM(Parametric Probabilistic Models)の学習過程における情報の流れを追跡する,記憶情報(M-info)と学習情報(L-info)の2つの情報理論指標を紹介する。
本研究では,学習過程におけるL-infoの蓄積がエントロピー生成と関連し,パラメータが熱貯水池として機能し,M-infoの形で学習情報を収集することを示した。
論文 参考訳(メタデータ) (2023-10-04T01:32:55Z) - Self-Supervised Learning with Lie Symmetries for Partial Differential
Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。
我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。
提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文 参考訳(メタデータ) (2023-07-11T16:52:22Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。