Fugu-MT 論文翻訳(概要): On Discovering Algorithms for Adversarial Imitation Learning

論文の概要: On Discovering Algorithms for Adversarial Imitation Learning

arxiv url: http://arxiv.org/abs/2510.00922v1
Date: Wed, 01 Oct 2025 14:02:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:20.600343
Title: On Discovering Algorithms for Adversarial Imitation Learning
Title（参考訳）: 敵対的模倣学習のための探索アルゴリズムについて
Authors: Shashank Reddy Chirra, Jayden Teoh, Praveen Paruchuri, Pradeep Varakantham,
Abstract要約: 本稿では,最初のメタ学習型AILアルゴリズムであるemphDiscovered Adversarial Imitation Learning (DAIL)を提案する。 DAILは、目に見えない環境とポリシー最適化アルゴリズムにまたがって一般化されていることを示す。また、DAILがより安定したトレーニングに導く理由を分析し、AILの安定性におけるRA関数の役割に関する新たな洞察を提供する。
参考スコア（独自算出の注目度）: 28.812210809286086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adversarial Imitation Learning (AIL) methods, while effective in settings with limited expert demonstrations, are often considered unstable. These approaches typically decompose into two components: Density Ratio (DR) estimation $\frac{\rho_E}{\rho_{\pi}}$, where a discriminator estimates the relative occupancy of state-action pairs under the policy versus the expert; and Reward Assignment (RA), where this ratio is transformed into a reward signal used to train the policy. While significant research has focused on improving density estimation, the role of reward assignment in influencing training dynamics and final policy performance has been largely overlooked. RA functions in AIL are typically derived from divergence minimization objectives, relying heavily on human design and ingenuity. In this work, we take a different approach: we investigate the discovery of data-driven RA functions, i.e, based directly on the performance of the resulting imitation policy. To this end, we leverage an LLM-guided evolutionary framework that efficiently explores the space of RA functions, yielding \emph{Discovered Adversarial Imitation Learning} (DAIL), the first meta-learnt AIL algorithm. Remarkably, DAIL generalises across unseen environments and policy optimization algorithms, outperforming the current state-of-the-art of \emph{human-designed} baselines. Finally, we analyse why DAIL leads to more stable training, offering novel insights into the role of RA functions in the stability of AIL. Code is publicly available: https://github.com/shshnkreddy/DAIL.
Abstract（参考訳）: AIL(Adversarial Imitation Learning)の手法は、限られた専門家によるデモンストレーションでは有効であるが、不安定であるとみなされることが多い。これらのアプローチは、一般的に2つのコンポーネントに分解される: 密度比 (DR) 推定$\frac{\rho_E}{\rho_{\pi}}$ ここで、判別器は、政策と専門家の間の状態-作用対の相対的占有度を推定する。密度推定の改善に焦点が当てられているが、トレーニングの力学と最終政策性能に影響を及ぼす報酬割り当ての役割は概ね見過ごされている。 AILのRA関数は、典型的には分散化の目的から派生し、人間の設計と創発性に大きく依存する。本研究では、データ駆動型RA関数の発見、すなわち、結果の模倣ポリシーの性能に基づいて、異なるアプローチをとる。この目的のために, RA関数の空間を効率的に探索するLLM誘導進化フレームワークを活用し, 最初のメタ学習型AILアルゴリズムである \emph{Discovered Adversarial Imitation Learning} (DAIL) を得る。注目すべきは、DAILは目に見えない環境とポリシー最適化アルゴリズムを一般化し、現在のemph{human-designed}ベースラインよりも優れています。最後に、DAILがより安定したトレーニングに導く理由を分析し、AILの安定性におけるRA関数の役割に関する新たな洞察を提供する。コードは、https://github.com/shshnkreddy/DAIL.comで公開されている。

関連論文リスト

No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。 LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文参考訳（メタデータ） (2024-07-09T02:11:12Z)
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文参考訳（メタデータ） (2024-05-29T06:17:33Z)
Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression [27.08369731750032]
本稿では,適応密度回帰(Adversarial Density Regression)と呼ばれる,一段階の教師付き模倣学習フレームワークを提案する。実演を生かして、専門家の分布に合わせるために、未知の品質で学んだポリシーを正すことを目的としている。 AdroitドメインとKitchenドメインのタスクの真理的な報酬を利用する場合、IQLよりも89.5%改善されている。
論文参考訳（メタデータ） (2024-05-28T06:59:16Z)
Blending Imitation and Reinforcement Learning for Robust Policy Improvement [15.46204945792257]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。 RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。 RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文参考訳（メタデータ） (2023-10-03T01:55:54Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文参考訳（メタデータ） (2021-11-09T22:38:58Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。具体的には,「コードレベルの最適化」の結果について検討する。以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文参考訳（メタデータ） (2020-05-25T16:24:59Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。