論文の概要: Imitation Learning as Return Distribution Matching
- arxiv url: http://arxiv.org/abs/2509.12026v1
- Date: Mon, 15 Sep 2025 15:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.360767
- Title: Imitation Learning as Return Distribution Matching
- Title(参考訳): 帰属分布マッチングとしての模倣学習
- Authors: Filippo Lazzati, Alberto Maria Metelli,
- Abstract要約: リスク感応性強化学習(RL)エージェントの模倣学習(IL)による訓練課題について検討する。
私たちのゴールは、専門家の期待したリターンと一致するエージェントを訓練するだけでなく、リスク態度もトレーニングすることです。
RS-KTは, 動的情報を活用することにより, RS-BCよりも試料の複雑さが著しく低いことを示す。
- 参考スコア(独自算出の注目度): 37.79354987519793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of training a risk-sensitive reinforcement learning (RL) agent through imitation learning (IL). Unlike standard IL, our goal is not only to train an agent that matches the expert's expected return (i.e., its average performance) but also its risk attitude (i.e., other features of the return distribution, such as variance). We propose a general formulation of the risk-sensitive IL problem in which the objective is to match the expert's return distribution in Wasserstein distance. We focus on the tabular setting and assume the expert's reward is known. After demonstrating the limited expressivity of Markovian policies for this task, we introduce an efficient and sufficiently expressive subclass of non-Markovian policies tailored to it. Building on this subclass, we develop two provably efficient algorithms, RS-BC and RS-KT, for solving the problem when the transition model is unknown and known, respectively. We show that RS-KT achieves substantially lower sample complexity than RS-BC by exploiting dynamics information. We further demonstrate the sample efficiency of return distribution matching in the setting where the expert's reward is unknown by designing an oracle-based variant of RS-KT. Finally, we complement our theoretical analysis of RS-KT and RS-BC with numerical simulations, highlighting both their sample efficiency and the advantages of non-Markovian policies over standard sample-efficient IL algorithms.
- Abstract(参考訳): リスク感応性強化学習(RL)エージェントを模倣学習(IL)を用いて訓練する際の課題について検討する。
標準のILとは異なり、我々のゴールは、専門家の期待したリターン(平均性能)にマッチするエージェントを訓練するだけでなく、リスク態度(分散など、リターン分布の他の特徴)も訓練することです。
本稿では,リスクに敏感なIL問題の一般的な定式化を提案し,ワッサーシュタイン距離における専門家の戻り分布に一致させることを目的とする。
表の設定に集中し、専門家の報酬が分かっていると仮定する。
このタスクに対するマルコフ的ポリシーの限定的な表現性を示した後、我々はそれに適した非マルコフ的ポリシーの効率的かつ十分に表現的なサブクラスを導入する。
このサブクラスをベースとして,遷移モデルが未知な場合と既知の場合の問題を解くために,RS-BC と RS-KT という証明可能な2つのアルゴリズムを開発した。
RS-KTは, 動的情報を活用することにより, RS-BCよりも試料の複雑さが著しく低いことを示す。
さらに、RS-KTのオラクルベースの変種を設計することにより、専門家の報酬が不明な環境での戻り分布マッチングのサンプル効率を実証する。
最後に、RS-KT と RS-BC の理論的解析を数値シミュレーションで補完し、サンプル効率と標準サンプル効率ILアルゴリズムに対する非マルコフポリシーの利点を強調した。
関連論文リスト
- Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining [5.560011325936085]
強化学習は、解釈可能で利益の出る投資戦略を作成するために、公式なアルファ因子を採掘する複雑なプロセスの自動化に成功した。
既存の方法は、基礎となるマルコフ決定プロセスが与えられたスパース報酬によって妨げられる。
そこで,新たな報酬形成手法であるトラジェクトリレベル・リワード(TLRS)を提案する。
論文 参考訳(メタデータ) (2025-07-27T13:14:48Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents [40.51184157538392]
本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。
本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-02-16T13:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。