論文の概要: Rationality Measurement and Theory for Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2602.04737v1
- Date: Wed, 04 Feb 2026 16:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.632785
- Title: Rationality Measurement and Theory for Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントの相対性測定と理論
- Authors: Kejiang Qian, Amos Storkey, Fengxiang He,
- Abstract要約: 本稿では,強化学習エージェントに対する合理性尺度と関連する理論の組を提案する。
最も急な方向に隠された真値関数を最大化すれば、デプロイメントにおけるアクションは完全に合理的であると定義します。
政策の合理的な行動に対する行動の期待値の相違は、合理的なリスクであると定義される。
- 参考スコア(独自算出の注目度): 19.141181538108388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a suite of rationality measures and associated theory for reinforcement learning agents, a property increasingly critical yet rarely explored. We define an action in deployment to be perfectly rational if it maximises the hidden true value function in the steepest direction. The expected value discrepancy of a policy's actions against their rational counterparts, culminating over the trajectory in deployment, is defined to be expected rational risk; an empirical average version in training is also defined. Their difference, termed as rational risk gap, is decomposed into (1) an extrinsic component caused by environment shifts between training and deployment, and (2) an intrinsic one due to the algorithm's generalisability in a dynamic environment. They are upper bounded by, respectively, (1) the $1$-Wasserstein distance between transition kernels and initial state distributions in training and deployment, and (2) the empirical Rademacher complexity of the value function class. Our theory suggests hypotheses on the benefits from regularisers (including layer normalisation, $\ell_2$ regularisation, and weight normalisation) and domain randomisation, as well as the harm from environment shifts. Experiments are in full agreement with these hypotheses. The code is available at https://github.com/EVIEHub/Rationality.
- Abstract(参考訳): 本稿では,強化学習エージェントに対する合理性尺度と関連する理論の組を提案する。
最も急な方向に隠された真値関数を最大化すれば、デプロイメントにおけるアクションは完全に合理的であると定義します。
政策の合理的な行動に対する期待値の相違は、展開の軌跡を乗り越え、合理的なリスクと定義され、訓練における経験的平均バージョンも定義されている。
これらの違いは,(1)訓練と展開の環境シフトに起因する外在的成分,(2)動的環境におけるアルゴリズムの一般化性に起因する内在的成分に分解される。
これらは、(1)遷移カーネルとトレーニングおよびデプロイメントの初期状態分布の間の1ドルワッサースタイン距離、(2)値関数クラスの経験的ラデマッハ複雑性によってそれぞれ上界される。
我々の理論は、正規化の利点(層正規化、$\ell_2$正規化、重み付け正規化)とドメインランダム化の利点、および環境変化の害についての仮説を示唆している。
実験はこれらの仮説と完全に一致している。
コードはhttps://github.com/EVIEHub/Rationality.comで公開されている。
関連論文リスト
- Rational Adversaries and the Maintenance of Fragility: A Game-Theoretic Theory of Rational Stagnation [0.0]
本稿では、合理的な敵によって維持される均衡として、そのような「合理的な停滞」を説明する。
ソーシャルメディアのアルゴリズムや政治的信頼への応用は、敵が故意に合理性を維持する方法を示している。
論文 参考訳(メタデータ) (2025-10-25T09:28:15Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。
これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。
その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文 参考訳(メタデータ) (2022-10-17T00:29:24Z) - Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T15:55:38Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Robustness, Privacy, and Generalization of Adversarial Training [84.38148845727446]
本稿では, 対人訓練におけるプライバシ・ロバスト性トレードオフと一般化・ロバスト性トレードオフの確立と定量化を行う。
我々は,差分プライバシの大きさが強固な強度と正の相関を持つ場合,敵対的トレーニングは$(varepsilon,delta)$-differentially privateであることが示される。
我々の一般化境界は、ディープラーニングにおいて大きなパラメータサイズに明示的に依存していない。
論文 参考訳(メタデータ) (2020-12-25T13:35:02Z) - Beyond $\mathcal{H}$-Divergence: Domain Adaptation Theory With
Jensen-Shannon Divergence [21.295136514836788]
広範に評価された経験的ドメイン逆行訓練と,$mathcalH$-divergenceに基づく理論上の相似性を明らかにする。
我々は,Jensen-Shannon分散に基づく上層および下層ターゲットのリスク境界を直接証明することによって,新たな理論的枠組みを確立する。
論文 参考訳(メタデータ) (2020-07-30T16:19:59Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。