Fugu-MT 論文翻訳(概要): Malliavin Calculus for Counterfactual Gradient Estimation in Adaptive Inverse Reinforcement Learning

論文の概要: Malliavin Calculus for Counterfactual Gradient Estimation in Adaptive Inverse Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.01345v1
Date: Wed, 01 Apr 2026 19:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:09.86688
Title: Malliavin Calculus for Counterfactual Gradient Estimation in Adaptive Inverse Reinforcement Learning
Title（参考訳）: 適応的逆強化学習における対実的勾配推定のためのMalliavin計算法
Authors: Vikram Krishnamurthy, Luke Snow,
Abstract要約: 逆強化学習(IRL)は、その観測結果から前方学習者の損失関数を復元する。本稿では,適応IRLを実現する受動ランゲヴィンに基づく新しいアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 16.179901221618156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inverse reinforcement learning (IRL) recovers the loss function of a forward learner from its observed responses adaptive IRL aims to reconstruct the loss function of a forward learner by passively observing its gradients as it performs reinforcement learning (RL). This paper proposes a novel passive Langevin-based algorithm that achieves adaptive IRL. The key difficulty in adaptive IRL is that the required gradients in the passive algorithm are counterfactual, that is, they are conditioned on events of probability zero under the forward learner's trajectory. Therefore, naive Monte Carlo estimators are prohibitively inefficient, and kernel smoothing, though common, suffers from slow convergence. We overcome this by employing Malliavin calculus to efficiently estimate the required counterfactual gradients. We reformulate the counterfactual conditioning as a ratio of unconditioned expectations involving Malliavin quantities, thus recovering standard estimation rates. We derive the necessary Malliavin derivatives and their adjoint Skorohod integral formulations for a general Langevin structure, and provide a concrete algorithmic approach which exploits these for counterfactual gradient estimation.
Abstract（参考訳）: 逆強化学習(IRL)は、その観測応答から前方学習者の損失関数を復元し、その勾配を受動的に観察して前方学習者の損失関数を再構築することを目的とする。本稿では,適応IRLを実現する受動ランゲヴィンに基づく新しいアルゴリズムを提案する。適応IRLにおける鍵となる困難は、受動的アルゴリズムの要求勾配が非現実的であること、すなわち、前方学習者の軌道の下で確率ゼロの事象に条件付けられることである。したがって、ナイーブなモンテカルロ推定器は非効率であり、カーネルの滑らか化は一般的ではあるが、緩やかな収束に悩まされる。我々は、必要な反事実勾配を効率的に推定するために、Marliavin calculus を用いてこれを克服する。反事実条件付けを,マルリアビン量を含む無条件予測の比率として再定式化し,標準推定率の回復を図る。一般ランゲヴィン構造に対して必要なマリアビン微分とその随伴するスコロホッド積分式を導出し、これらを反実的勾配推定に利用するための具体的なアルゴリズム的アプローチを提案する。

関連論文リスト

Malliavin Calculus with Weak Derivatives for Counterfactual Stochastic Optimization [16.179901221618156]
本研究では,不特定雑音勾配情報に基づく条件損失関数の対実的最適化について検討する。拡散過程の条件損失函数は、スコロホッド積分として正確に表現され、古典的モンテカルロに匹敵する分散をもたらすことを示す。
論文参考訳（メタデータ） (2025-09-30T21:37:54Z)
RieszBoost: Gradient Boosting for Riesz Regression [49.737777802061984]
本稿では,Riesz表現子を直接推定するために,その明示的な解析形式を必要とせず,新たな勾配向上アルゴリズムを提案する。提案アルゴリズムは,様々な関数を対象とした間接推定手法と同等以上の性能を示す。
論文参考訳（メタデータ） (2025-01-08T23:04:32Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Functional Partial Least-Squares: Adaptive Estimation and Inference [0.0]
関数的部分最小二乗(PLS)推定器は, 楕円体のクラスに対して, 最大収束速度がほぼ最小となることを示す。トウモロコシと大豆の収量に対する温度の非線形効果を評価するために,本手法を適用した。
論文参考訳（メタデータ） (2024-02-16T23:47:47Z)
Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods [0.38233569758620045]
ニューラルネットワークに基づく条件密度推定器を用いて適応的に提案されたシミュレーションから後部を学習することを目的とする。 Greenbergらによって提案された自動後部変換(APT)法は,高レベルのランタイムデータに対して良好に動作し,スケールする。本稿では,APTをネスト推定問題として再検討する。損失関数とその勾配に対するマルチモンテカルロ (MLMC) 推定器を構築し, 異なるシナリオに対応する。
論文参考訳（メタデータ） (2024-01-30T06:29:41Z)
Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics [13.440621354486906]
本稿では,受動勾配ランゲヴィンダイナミクス(PSGLD)アルゴリズムの有限サンプル解析を行う。 Adaptive IRLは、勾配アルゴリズムを実行する前方学習者のコスト関数を推定することを目的としている。
論文参考訳（メタデータ） (2023-04-18T16:39:51Z)
Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文参考訳（メタデータ） (2022-05-22T00:34:41Z)
Learning Rates as a Function of Batch Size: A Random Matrix Theory Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。 VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文参考訳（メタデータ） (2020-06-16T11:55:45Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。