論文の概要: Learning to Steer Markovian Agents under Model Uncertainty
- arxiv url: http://arxiv.org/abs/2407.10207v1
- Date: Sun, 14 Jul 2024 14:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 18:59:20.341665
- Title: Learning to Steer Markovian Agents under Model Uncertainty
- Title(参考訳): モデル不確かさ下におけるマルコフエージェントの学習
- Authors: Jiawei Huang, Vinzenz Thoma, Zebang Shen, Heinrich H. Nax, Niao He,
- Abstract要約: ステアリング問題に対して,モデルに基づく非エポゾディック強化学習(RL)の定式化を導入する。
我々は,エージェントの学習力学に関する本質的なモデルの不確実性を扱うために,歴史に依存した運営戦略を学習することに集中する。
- 参考スコア(独自算出の注目度): 23.603487812521657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing incentives for an adapting population is a ubiquitous problem in a wide array of economic applications and beyond. In this work, we study how to design additional rewards to steer multi-agent systems towards desired policies \emph{without} prior knowledge of the agents' underlying learning dynamics. We introduce a model-based non-episodic Reinforcement Learning (RL) formulation for our steering problem. Importantly, we focus on learning a \emph{history-dependent} steering strategy to handle the inherent model uncertainty about the agents' learning dynamics. We introduce a novel objective function to encode the desiderata of achieving a good steering outcome with reasonable cost. Theoretically, we identify conditions for the existence of steering strategies to guide agents to the desired policies. Complementing our theoretical contributions, we provide empirical algorithms to approximately solve our objective, which effectively tackles the challenge in learning history-dependent strategies. We demonstrate the efficacy of our algorithms through empirical evaluations.
- Abstract(参考訳): 適応する人口のためのインセンティブを設計することは、幅広い経済応用において、そしてそれ以上の領域において、ユビキタスな問題である。
本研究では,エージェントの基盤となる学習力学の事前知識に基づいて,マルチエージェントシステムに対して,望ましいポリシーであるemph{without}に向けて,新たな報酬を設計する方法について検討する。
ステアリング問題に対して,モデルに基づく非エポゾディック強化学習(RL)の定式化を導入する。
重要なことは、エージェントの学習力学に関する本質的なモデルの不確実性を扱うために、emph{history-dependent} ステアリング戦略を学習することに焦点を当てている。
適切なコストで良好なステアリング結果を達成するためのデシダラタを符号化する新たな客観的機能を導入する。
理論的には,所望の政策にエージェントを誘導するステアリング戦略の存在条件を特定する。
理論的な貢献を補完し,我々の目的を概ね解くための経験的アルゴリズムを提供し,歴史に依存した戦略を学習する上での課題に効果的に取り組む。
経験的評価により,アルゴリズムの有効性を実証する。
関連論文リスト
- Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Learning to Find Proofs and Theorems by Learning to Refine Search
Strategies [0.9137554315375919]
AlphaZeroスタイルのエージェントは、非決定論的プログラムとして表される高度な専門家戦略を洗練するために自己学習を行っている。
類似教師エージェントは、学習者にとって適切な関連性と難易度のあるタスクを生成するための自己学習を行う。
論文 参考訳(メタデータ) (2022-05-27T20:48:40Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Generalized dynamic cognitive hierarchy models for strategic driving
behavior [13.415452801139843]
我々は、自然主義的人間運転行動と自律走行車における行動計画の両方をモデル化するための一般化された動的認知階層の枠組みを開発する。
2つの大きな自然主義的データセットの評価に基づいて、動的レベル-kフレームワークにおけるレベル-0の振る舞いにオートマトン戦略が適していることを示す。
論文 参考訳(メタデータ) (2021-09-20T21:49:52Z) - Deep Reinforcement Learning in a Monetary Model [5.7742249974375985]
動的一般均衡モデルの解法として深部強化学習を提案する。
エージェントは深層ニューラルネットワークによって表現され、動的最適化問題の解法を学ぶ。
適応学習(adaptive learning)とは対照的に、人工知能の家庭はすべての政策体制においてこのモデルを解決できる。
論文 参考訳(メタデータ) (2021-04-19T14:56:44Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。