論文の概要: Inverse Reinforcement Learning using Revealed Preferences and Passive Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2507.04396v1
- Date: Sun, 06 Jul 2025 13:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.158981
- Title: Inverse Reinforcement Learning using Revealed Preferences and Passive Stochastic Optimization
- Title(参考訳): Revealed Preferencesとパッシブ確率最適化を用いた逆強化学習
- Authors: Vikram Krishnamurthy,
- Abstract要約: 最初の2章では、逆強化学習(IRL)を、ミクロ経済学から明らかな好みのレンズを通して見る。
第3章では適応勾配アルゴリズムについて研究している。
- 参考スコア(独自算出の注目度): 15.878313629774269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This monograph, spanning three chapters, explores Inverse Reinforcement Learning (IRL). The first two chapters view inverse reinforcement learning (IRL) through the lens of revealed preferences from microeconomics while the third chapter studies adaptive IRL via Langevin dynamics stochastic gradient algorithms. Chapter uses classical revealed preference theory (Afriat's theorem and extensions) to identify constrained utility maximizers based on observed agent actions. This allows for the reconstruction of set-valued estimates of an agent's utility. We illustrate this procedure by identifying the presence of a cognitive radar and reconstructing its utility function. The chapter also addresses the construction of a statistical detector for utility maximization behavior when agent actions are corrupted by noise. Chapter 2 studies Bayesian IRL. It investigates how an analyst can determine if an observed agent is a rationally inattentive Bayesian utility maximizer (i.e., simultaneously optimizing its utility and observation likelihood). The chapter discusses inverse stopping-time problems, focusing on reconstructing the continuation and stopping costs of a Bayesian agent operating over a random horizon. We then apply this IRL methodology to identify the presence of a Bayes-optimal sequential detector. Additionally, Chapter 2 provides a concise overview of discrete choice models, inverse Bayesian filtering, and inverse stochastic gradient algorithms for adaptive IRL. Finally, Chapter 3 introduces an adaptive IRL approach utilizing passive Langevin dynamics. This method aims to track time-varying utility functions given noisy and misspecified gradients. In essence, the adaptive IRL algorithms presented in Chapter 3 can be conceptualized as inverse stochastic gradient algorithms, as they learn the utility function in real-time while a stochastic gradient algorithm is in operation.
- Abstract(参考訳): このモノグラフは3章にわたって、逆強化学習(Inverse Reinforcement Learning、IRL)を探求している。
最初の2章では、逆強化学習(IRL)をミクロ経済学からの選好のレンズを通して捉え、第3章ではランゲヴィン力学の確率勾配アルゴリズムを用いてIRLを適応させる。
章は古典的明らかにされた選好理論(アフリカンの定理と拡張)を使用して、観察されたエージェントアクションに基づいて制約付きユーティリティ・エキシマを識別する。
これにより、エージェントのユーティリティのセット値の推定値の再構築が可能になる。
本稿では,認知レーダの存在を特定し,その実用機能を再構築することによって,この手順を説明する。
この章は、エージェントアクションがノイズによって破損した場合のユーティリティ最大化動作のための統計検出器の構築についても論じている。
第2章 ベイズ赤外線の研究
分析者は、観察されたエージェントが合理的に不注意なベイズ効用最大値(すなわち、その効用と観測可能性の同時最適化)であるかどうかを判断する。
この章では、ランダムな地平線上で動作しているベイズエージェントの継続と停止コストの再構築に焦点を当て、逆停止時間問題について論じている。
次に、このIRL法を用いてベイズ最適シーケンシャル検出器の存在を同定する。
さらに、第2章では、離散選択モデル、逆ベイズフィルタリング、適応IRLのための逆確率勾配アルゴリズムの簡潔な概要を提供する。
最後に、第3章では、受動ランゲヴィンダイナミクスを利用した適応IRLアプローチを導入している。
本手法は,雑音や不特定勾配が与えられた時間変化ユーティリティ関数を追跡することを目的としている。
基本的に、第3章で提示される適応IRLアルゴリズムは、確率勾配アルゴリズムが動作している間、実用関数をリアルタイムで学習するので、逆確率勾配アルゴリズムとして概念化することができる。
関連論文リスト
- Slow Feature Analysis on Markov Chains from Goal-Directed Behavior [0.0]
本研究では,ゴール指向行動が理想化環境での値関数近似に及ぼす影響について検討する。
有害なスケーリング効果を軽減できる3つの補正経路を評価し,検討した。
論文 参考訳(メタデータ) (2025-06-01T19:57:41Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics [13.440621354486906]
本稿では,受動勾配ランゲヴィンダイナミクス(PSGLD)アルゴリズムの有限サンプル解析を行う。
Adaptive IRLは、勾配アルゴリズムを実行する前方学習者のコスト関数を推定することを目的としている。
論文 参考訳(メタデータ) (2023-04-18T16:39:51Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Sensing Cox Processes via Posterior Sampling and Positive Bases [56.82162768921196]
本研究では,空間統計学から広く用いられている点過程の適応センシングについて検討する。
我々は、この強度関数を、特別に構築された正の基底で表される、歪んだガウス過程のサンプルとしてモデル化する。
我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(textscCox-Thompson)と後続サンプリング(textscTop2)の原理に基づいている。
論文 参考訳(メタデータ) (2021-10-21T14:47:06Z) - Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文 参考訳(メタデータ) (2020-06-20T23:12:11Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。