論文の概要: ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2402.18617v1
- Date: Wed, 28 Feb 2024 17:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:01:14.024942
- Title: ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games
- Title(参考訳): ELA:ゼロサムゲームにおけるオフライン学習のための爆発的レベル拡張
- Authors: Shiqi Lei, Kanghoon Lee, Linjing Li, Jinkyoo Park, and Jiachen Li
- Abstract要約: 本稿では,多様なデモ参加者によるゼロサムゲームのオフラインデータセットから,各トラジェクトリの悪用レベルを推定するための新しい手法を提案する。
評価された搾取レベルをオフライン学習に組み込んで,支配的戦略の影響を最大化する。
- 参考スコア(独自算出の注目度): 19.629369435528094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline learning has become widely used due to its ability to derive
effective policies from offline datasets gathered by expert demonstrators
without interacting with the environment directly. Recent research has explored
various ways to enhance offline learning efficiency by considering the
characteristics (e.g., expertise level or multiple demonstrators) of the
dataset. However, a different approach is necessary in the context of zero-sum
games, where outcomes vary significantly based on the strategy of the opponent.
In this study, we introduce a novel approach that uses unsupervised learning
techniques to estimate the exploited level of each trajectory from the offline
dataset of zero-sum games made by diverse demonstrators. Subsequently, we
incorporate the estimated exploited level into the offline learning to maximize
the influence of the dominant strategy. Our method enables interpretable
exploited level estimation in multiple zero-sum games and effectively
identifies dominant strategy data. Also, our exploited level augmented offline
learning significantly enhances the original offline learning algorithms
including imitation learning and offline reinforcement learning for zero-sum
games.
- Abstract(参考訳): オフライン学習は、専門家が直接環境と対話することなく収集したオフラインデータセットから効果的なポリシーを導出する能力によって広く利用されている。
最近の研究では、データセットの特徴(例えば、専門レベルや複数の実証者)を考慮し、オフライン学習効率を高める様々な方法を模索している。
しかし、ゼロサムゲームの文脈では、相手の戦略に基づいて結果が大きく異なる異なるアプローチが必要である。
本研究では,教師なし学習手法を用いて,多様な実証者によるゼロサムゲームのオフラインデータセットから,各トラジェクトリの活用レベルを推定する手法を提案する。
その後,推定された悪用レベルをオフライン学習に取り入れ,支配的戦略の影響を最大化する。
本手法は,複数のゼロサムゲームにおけるレベル推定を解釈可能とし,支配的戦略データを効果的に識別する。
また,実演学習やゼロサムゲームにおけるオフライン強化学習を含む,本来のオフライン学習アルゴリズムを大幅に強化した。
関連論文リスト
- BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - The Generalization Gap in Offline Reinforcement Learning [26.583205544712403]
オフライン学習アルゴリズムは、オンライン学習アルゴリズムよりも、新しい環境でパフォーマンスが悪くなります。
行動クローニングは強力なベースラインであり、最先端のオフラインRLおよびシーケンスモデリングアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-10T03:40:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Understand and Improve Contrastive Learning Methods for Visual
Representation: A Review [1.4650545418986058]
手動ラベリングなしで効果的なデータ表現を学習できる可能性から、有望な自己教師型学習が人気を集めている。
本文献レビューは, 自己指導型学習の鍵となる構成要素と限界を理解するための研究者の取り組みについて, 最新の分析を行うことを目的としている。
論文 参考訳(メタデータ) (2021-06-06T21:59:49Z) - On Data Efficiency of Meta-learning [17.739215706060605]
私たちは、現代のメタ学習アルゴリズムの見落とされがちな側面、すなわちそのデータ効率を研究します。
本稿では,メタラーニング手法を評価するための新しいシンプルなフレームワークを提案する。
本稿では,アクティブなデータ選択を学習学習に取り入れたアクティブなメタラーニングを提案する。
論文 参考訳(メタデータ) (2021-01-30T01:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。