Fugu-MT 論文翻訳(概要): Adversarial Inverse Reinforcement Learning for Mean Field Games

論文の概要: Adversarial Inverse Reinforcement Learning for Mean Field Games

arxiv url: http://arxiv.org/abs/2104.14654v5
Date: Mon, 17 Apr 2023 23:06:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 19:29:15.410124
Title: Adversarial Inverse Reinforcement Learning for Mean Field Games
Title（参考訳）: 平均フィールドゲームにおける逆逆強化学習
Authors: Yang Chen, Libo Zhang, Jiamou Liu and Michael Witbrock
Abstract要約: 平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
参考スコア（独自算出の注目度）: 17.392418397388823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mean field games (MFGs) provide a mathematically tractable framework for modelling large-scale multi-agent systems by leveraging mean field theory to simplify interactions among agents. It enables applying inverse reinforcement learning (IRL) to predict behaviours of large populations by recovering reward signals from demonstrated behaviours. However, existing IRL methods for MFGs are powerless to reason about uncertainties in demonstrated behaviours of individual agents. This paper proposes a novel framework, Mean-Field Adversarial IRL (MF-AIRL), which is capable of tackling uncertainties in demonstrations. We build MF-AIRL upon maximum entropy IRL and a new equilibrium concept. We evaluate our approach on simulated tasks with imperfect demonstrations. Experimental results demonstrate the superiority of MF-AIRL over existing methods in reward recovery.
Abstract（参考訳）: 平均場ゲーム(MFG)は、平均場理論を利用してエージェント間の相互作用を単純化することにより、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。実演行動から報酬信号を回収することにより、逆強化学習(IRL)を適用して、大集団の行動を予測する。しかし、既存のMFGのIRL法では、個々のエージェントの動作を示す不確実性について説明できない。本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。我々は、最大エントロピーIRLと新しい平衡概念に基づいてMF-AIRLを構築する。不完全な実演を伴うシミュレーションタスクに対する我々のアプローチを評価する。その結果,MF-AIRLは報酬回収法よりも優れていることが示された。

関連論文リスト

Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning [27.226155951073064]
Shop-R1は大規模言語モデル(LLM)の推論能力向上を目的とした新しい強化学習フレームワークである合理的な生成には、内部モデル信号(例えば、ロジット分布)を活用して、推論プロセスを自己管理的に導く。行動予測のために,報酬ハッキングを防止するため,スケーリングの難しさを考慮した階層型報酬構造を提案する。
論文参考訳（メタデータ） (2025-07-23T18:10:43Z)
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文参考訳（メタデータ） (2024-10-21T10:57:45Z)
BAMDP Shaping: a Unified Framework for Intrinsic Motivation and Reward Shaping [10.084572940262634]
擬似逆流付加による内因的動機づけと報酬形成誘導強化学習(RL)剤これらの振る舞いを予測し、有害な影響を限定できる幅広い基準を提供する理論モデルを提供する。
論文参考訳（メタデータ） (2024-09-09T06:39:56Z)
Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文参考訳（メタデータ） (2024-05-05T16:38:04Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-02-13T20:35:01Z)
Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations and Alternative Solution Concepts [0.0]
マルチエージェント逆強化学習は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と振る舞いを考慮しなければならない。
論文参考訳（メタデータ） (2021-09-02T19:15:29Z)
Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。 6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文参考訳（メタデータ） (2021-06-15T11:16:49Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。