論文の概要: MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning
- arxiv url: http://arxiv.org/abs/2304.04668v2
- Date: Tue, 9 Jan 2024 23:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 17:54:48.646419
- Title: MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning
- Title(参考訳): MERMAIDE:モデルベースメタラーニングによる学習者の学習
- Authors: Arundhati Banerjee, Soham Phade, Stefano Ermon, Stephan Zheng
- Abstract要約: 本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
- 参考スコア(独自算出の注目度): 62.065503126104126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how a principal can efficiently and effectively intervene on the
rewards of a previously unseen learning agent in order to induce desirable
outcomes. This is relevant to many real-world settings like auctions or
taxation, where the principal may not know the learning behavior nor the
rewards of real people. Moreover, the principal should be few-shot adaptable
and minimize the number of interventions, because interventions are often
costly. We introduce MERMAIDE, a model-based meta-learning framework to train a
principal that can quickly adapt to out-of-distribution agents with different
learning strategies and reward functions. We validate this approach
step-by-step. First, in a Stackelberg setting with a best-response agent, we
show that meta-learning enables quick convergence to the theoretically known
Stackelberg equilibrium at test time, although noisy observations severely
increase the sample complexity. We then show that our model-based meta-learning
approach is cost-effective in intervening on bandit agents with unseen
explore-exploit strategies. Finally, we outperform baselines that use either
meta-learning or agent behavior modeling, in both $0$-shot and $K=1$-shot
settings with partial agent information.
- Abstract(参考訳): 本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
さらに、プリンシパルは数発の適応が可能で、介入の回数を最小限にする必要がある。
我々は,学習戦略や報酬機能が異なる分散エージェントに迅速に適応できるプリンシパルをトレーニングするためのモデルベースのメタ学習フレームワークmermaideを紹介する。
このアプローチを段階的に検証する。
まず,最善の応答エージェントを持つstackelberg設定において,実験時に理論的に知られているstackelberg平衡への迅速な収束がメタラーニングによって可能となることを示した。
次に,我々のモデルに基づくメタラーニングアプローチが,未熟な探索・探索戦略とバンディットエージェントとの相互作用に費用対効果があることを示す。
最後に、メタラーニングまたはエージェントの振る舞いモデリングを使用するベースラインを、部分的なエージェント情報を含む$0$shotと$k=1$$-shot設定の両方で上回っています。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。
実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。
特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文 参考訳(メタデータ) (2024-10-10T15:28:04Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - A Primal-Dual Subgradient Approachfor Fair Meta Learning [23.65344558042896]
ショットのメタ学習は、その高速適応能力と、未知のタスクへの精度の一般化で有名である。
そこで本研究では,ごく少数の例を用いて,公正な機械学習モデルのトレーニングを学習するPrimal-Dual Meta-learningフレームワーク,すなわちPDFMを提案する。
論文 参考訳(メタデータ) (2020-09-26T19:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。