論文の概要: Imitation Learning as Return Distribution Matching
- arxiv url: http://arxiv.org/abs/2509.12026v1
- Date: Mon, 15 Sep 2025 15:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.360767
- Title: Imitation Learning as Return Distribution Matching
- Title(参考訳): 帰属分布マッチングとしての模倣学習
- Authors: Filippo Lazzati, Alberto Maria Metelli,
- Abstract要約: リスク感応性強化学習(RL)エージェントの模倣学習(IL)による訓練課題について検討する。
私たちのゴールは、専門家の期待したリターンと一致するエージェントを訓練するだけでなく、リスク態度もトレーニングすることです。
RS-KTは, 動的情報を活用することにより, RS-BCよりも試料の複雑さが著しく低いことを示す。
- 参考スコア(独自算出の注目度): 37.79354987519793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of training a risk-sensitive reinforcement learning (RL) agent through imitation learning (IL). Unlike standard IL, our goal is not only to train an agent that matches the expert's expected return (i.e., its average performance) but also its risk attitude (i.e., other features of the return distribution, such as variance). We propose a general formulation of the risk-sensitive IL problem in which the objective is to match the expert's return distribution in Wasserstein distance. We focus on the tabular setting and assume the expert's reward is known. After demonstrating the limited expressivity of Markovian policies for this task, we introduce an efficient and sufficiently expressive subclass of non-Markovian policies tailored to it. Building on this subclass, we develop two provably efficient algorithms, RS-BC and RS-KT, for solving the problem when the transition model is unknown and known, respectively. We show that RS-KT achieves substantially lower sample complexity than RS-BC by exploiting dynamics information. We further demonstrate the sample efficiency of return distribution matching in the setting where the expert's reward is unknown by designing an oracle-based variant of RS-KT. Finally, we complement our theoretical analysis of RS-KT and RS-BC with numerical simulations, highlighting both their sample efficiency and the advantages of non-Markovian policies over standard sample-efficient IL algorithms.
- Abstract(参考訳): リスク感応性強化学習(RL)エージェントを模倣学習(IL)を用いて訓練する際の課題について検討する。
標準のILとは異なり、我々のゴールは、専門家の期待したリターン(平均性能)にマッチするエージェントを訓練するだけでなく、リスク態度(分散など、リターン分布の他の特徴)も訓練することです。
本稿では,リスクに敏感なIL問題の一般的な定式化を提案し,ワッサーシュタイン距離における専門家の戻り分布に一致させることを目的とする。
表の設定に集中し、専門家の報酬が分かっていると仮定する。
このタスクに対するマルコフ的ポリシーの限定的な表現性を示した後、我々はそれに適した非マルコフ的ポリシーの効率的かつ十分に表現的なサブクラスを導入する。
このサブクラスをベースとして,遷移モデルが未知な場合と既知の場合の問題を解くために,RS-BC と RS-KT という証明可能な2つのアルゴリズムを開発した。
RS-KTは, 動的情報を活用することにより, RS-BCよりも試料の複雑さが著しく低いことを示す。
さらに、RS-KTのオラクルベースの変種を設計することにより、専門家の報酬が不明な環境での戻り分布マッチングのサンプル効率を実証する。
最後に、RS-KT と RS-BC の理論的解析を数値シミュレーションで補完し、サンプル効率と標準サンプル効率ILアルゴリズムに対する非マルコフポリシーの利点を強調した。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining [5.560011325936085]
強化学習は、解釈可能で利益の出る投資戦略を作成するために、公式なアルファ因子を採掘する複雑なプロセスの自動化に成功した。
既存の方法は、基礎となるマルコフ決定プロセスが与えられたスパース報酬によって妨げられる。
そこで,新たな報酬形成手法であるトラジェクトリレベル・リワード(TLRS)を提案する。
論文 参考訳(メタデータ) (2025-07-27T13:14:48Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - SENTINEL: Taming Uncertainty with Ensemble-based Distributional
Reinforcement Learning [6.587644069410234]
モデルベース強化学習(RL)におけるリスク依存型シーケンシャル意思決定の検討
リスクの新たな定量化、すなわちEmphcomposite riskを導入する。
我々は、SENTINEL-Kが戻り分布をよりよく推定し、複合リスク推定と併用しながら、競合するRLアルゴリズムよりもリスクに敏感な性能を示すことを実験的に検証した。
論文 参考訳(メタデータ) (2021-02-22T14:45:39Z) - RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents [40.51184157538392]
本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。
本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-02-16T13:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。