論文の概要: Multi-Agent Imitation Learning: Value is Easy, Regret is Hard
- arxiv url: http://arxiv.org/abs/2406.04219v2
- Date: Wed, 26 Jun 2024 03:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 18:16:00.777349
- Title: Multi-Agent Imitation Learning: Value is Easy, Regret is Hard
- Title(参考訳): マルチエージェントの模倣学習: 価値は簡単,レグレトは難しい
- Authors: Jingwu Tang, Gokul Swamy, Fei Fang, Zhiwei Steven Wu,
- Abstract要約: 我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
- 参考スコア(独自算出の注目度): 52.31989962031179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a multi-agent imitation learning (MAIL) problem where we take the perspective of a learner attempting to coordinate a group of agents based on demonstrations of an expert doing so. Most prior work in MAIL essentially reduces the problem to matching the behavior of the expert within the support of the demonstrations. While doing so is sufficient to drive the value gap between the learner and the expert to zero under the assumption that agents are non-strategic, it does not guarantee robustness to deviations by strategic agents. Intuitively, this is because strategic deviations can depend on a counterfactual quantity: the coordinator's recommendations outside of the state distribution their recommendations induce. In response, we initiate the study of an alternative objective for MAIL in Markov Games we term the regret gap that explicitly accounts for potential deviations by agents in the group. We first perform an in-depth exploration of the relationship between the value and regret gaps. First, we show that while the value gap can be efficiently minimized via a direct extension of single-agent IL algorithms, even value equivalence can lead to an arbitrarily large regret gap. This implies that achieving regret equivalence is harder than achieving value equivalence in MAIL. We then provide a pair of efficient reductions to no-regret online convex optimization that are capable of minimizing the regret gap (a) under a coverage assumption on the expert (MALICE) or (b) with access to a queryable expert (BLADES).
- Abstract(参考訳): 本研究では,エージェントのグループを協調させようとする学習者の視点を,専門家の実証に基づくマルチエージェント模倣学習(MAIL)問題として考察する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱に対する堅牢性は保証されない。
直感的には、これは戦略的な逸脱が反現実的な量に依存する可能性があるためである。
これに対し、マルコフゲームにおけるMAILの代替目的の研究を開始し、グループ内のエージェントによる潜在的な逸脱を明示的に説明する後悔のギャップを表現した。
まず、価値と後悔のギャップの関係を詳細に調査する。
まず、単一エージェントILアルゴリズムの直接拡張により、値ギャップを効率よく最小化できる一方で、値等価性さえも、任意に大きな後悔ギャップをもたらす可能性があることを示す。
これは、後悔の同値性を達成することは、MAILにおける価値同値性を達成することよりも難しいことを意味する。
そして、後悔のギャップを最小限に抑えることができるオンライン凸最適化を効率よく削減する。
(a)専門家(MALICE)又は
(b)クエリ可能なエキスパート(BLADES)へのアクセス。
関連論文リスト
- Provable Interactive Learning with Hindsight Instruction Feedback [29.754170272323105]
本研究では,教師がエージェントが生成した応答に最も適した教示を提供するため,後向きの指導で学習を学習する。
この後見的な指示のラベル付けは、最適応答の専門的な監督を提供するよりも、提供しやすいことが多い。
この設定のためにLORILと呼ばれるアルゴリズムを導入し、その後悔の度合いが$sqrtT$で、$T$はラウンドの数であり、固有のランクに依存していることを示す。
論文 参考訳(メタデータ) (2024-04-14T02:18:07Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - LobsDICE: Offline Imitation Learning from Observation via Stationary
Distribution Correction Estimation [37.31080581310114]
定常分布の空間における最適化を通じて専門家のポリシーを模倣することを学ぶオフラインのifOアルゴリズムであるLobsDICEを提案する。
提案アルゴリズムは,専門家によって誘導される2つの状態遷移分布とエージェントポリシーとのばらつきを最小限に抑える,単一の凸最小化問題を解く。
論文 参考訳(メタデータ) (2022-02-28T04:24:30Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Tilted Empirical Risk Minimization [26.87656095874882]
経験的リスク最小化への直接的な拡張を通じて、個人の損失の影響を柔軟に調整できることを示す。
その結果, TERMはアウトリーチの影響を増大または減少させ, 公平性や堅牢性を実現することができることがわかった。
また、外れ値に同時に対処したり、公平性を促進するなど、全く新しいアプリケーションを可能にすることもできる。
論文 参考訳(メタデータ) (2020-07-02T14:49:48Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。