論文の概要: Meta-Inverse Reinforcement Learning for Mean Field Games via Probabilistic Context Variables
- arxiv url: http://arxiv.org/abs/2509.03845v1
- Date: Thu, 04 Sep 2025 03:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.033996
- Title: Meta-Inverse Reinforcement Learning for Mean Field Games via Probabilistic Context Variables
- Title(参考訳): 確率的文脈変数を用いた平均フィールドゲームのためのメタ逆強化学習
- Authors: Yang Chen, Xiao Lin, Bo Yan, Libo Zhang, Jiamou Liu, Neset Özkan Tan, Michael Witbrock,
- Abstract要約: 逆強化学習は、専門家のデモンストレーションから報酬関数を推測するフレームワークを提供する。
深層潜伏変数MFGモデルと関連するIRL法を提案する。
提案手法は,基礎となる文脈に関する事前知識を必要とせずに,異なるが構造的に類似したタスクから報酬を推測することができる。
- 参考スコア(独自算出の注目度): 27.845927777359723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing suitable reward functions for numerous interacting intelligent agents is challenging in real-world applications. Inverse reinforcement learning (IRL) in mean field games (MFGs) offers a practical framework to infer reward functions from expert demonstrations. While promising, the assumption of agent homogeneity limits the capability of existing methods to handle demonstrations with heterogeneous and unknown objectives, which are common in practice. To this end, we propose a deep latent variable MFG model and an associated IRL method. Critically, our method can infer rewards from different yet structurally similar tasks without prior knowledge about underlying contexts or modifying the MFG model itself. Our experiments, conducted on simulated scenarios and a real-world spatial taxi-ride pricing problem, demonstrate the superiority of our approach over state-of-the-art IRL methods in MFGs.
- Abstract(参考訳): 多くの対話的知的エージェントに適した報酬関数を設計することは、現実世界のアプリケーションでは難しい。
平均フィールドゲーム(MFG)における逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を推論する実践的な枠組みを提供する。
エージェントのホモジニティの仮定は有望ではあるが、実際には一般的である異質で未知の目的を持つ実演を扱う既存の方法の能力を制限する。
そこで本研究では,深い潜伏変数MFGモデルと関連するIRL法を提案する。
批判的に、本手法は、基礎となる文脈やMFGモデル自体を変更することなく、異なるが構造的に類似したタスクから報酬を推測することができる。
シミュレーションシナリオと実世界の空間タクシー料金問題を用いて,MFGにおける最先端IRL法に対するアプローチの優位性を実証した。
関連論文リスト
- Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Reward Learning using Structural Motifs in Inverse Reinforcement
Learning [3.04585143845864]
逆強化学習(textitIRL)の問題は、ロボティクス、認知、健康といった分野において、ここ数年で急速に進化してきた。
エージェントの報酬関数の学習における現在のIRL手法の非効率性について検討する。
本稿では、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、その構造モチーフを用いてIRL問題を解決する新しいIRL法SMIRLを提案する。
論文 参考訳(メタデータ) (2022-09-25T18:34:59Z) - Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-13T20:35:01Z) - Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain [11.075036222901417]
そこで本研究では,実世界の実演を参考に,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。
この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。
論文 参考訳(メタデータ) (2021-10-21T19:23:15Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文 参考訳(メタデータ) (2021-04-29T21:03:49Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。