論文の概要: Adversarial Imitation Learning On Aggregated Data
- arxiv url: http://arxiv.org/abs/2311.08568v1
- Date: Tue, 14 Nov 2023 22:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:19:48.016531
- Title: Adversarial Imitation Learning On Aggregated Data
- Title(参考訳): 集約データに基づく敵対的模倣学習
- Authors: Pierre Le Pelletier de Woillemont and R\'emi Labory and Vincent
Corruble
- Abstract要約: 逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
本稿では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) learns an optimal policy, given some
expert demonstrations, thus avoiding the need for the tedious process of
specifying a suitable reward function. However, current methods are constrained
by at least one of the following requirements. The first one is the need to
fully solve a forward Reinforcement Learning (RL) problem in the inner loop of
the algorithm, which might be prohibitively expensive in many complex
environments. The second one is the need for full trajectories from the
experts, which might not be easily available. The third one is the assumption
that the expert data is homogeneous rather than a collection from various
experts or possibly alternative solutions to the same task. Such constraints
make IRL approaches either not scalable or not usable on certain existing
systems. In this work we propose an approach which removes these requirements
through a dynamic, adaptive method called Adversarial Imitation Learning on
Aggregated Data (AILAD). It learns conjointly both a non linear reward function
and the associated optimal policy using an adversarial framework. The reward
learner only uses aggregated data. Moreover, it generates diverse behaviors
producing a distribution over the aggregated data matching that of the experts.
- Abstract(参考訳): 逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
しかし、現在の手法は以下の要件の少なくとも1つによって制約されている。
1つ目は、アルゴリズムの内側ループにおける前方強化学習(rl)問題を完全に解決する必要性である。
2つめは、専門家の完全な軌道の必要性であり、簡単には利用できないかもしれない。
3つ目は、専門家データが様々な専門家の収集や、おそらく同じタスクに対する代替ソリューションではなく、均質であるという仮定である。
このような制約により、IRLのアプローチは拡張性がないか、既存のシステムでは利用できない。
本研究では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
報酬学習者は集計データのみを使用する。
さらに、専門家のものと一致する集約されたデータにまたがる分布を生成する多様な行動を生成する。
関連論文リスト
- Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms [23.61332577985059]
逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
論文 参考訳(メタデータ) (2024-02-23T15:49:46Z) - Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data [4.971690889257356]
コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。
iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-08-08T17:56:20Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。