論文の概要: PACE: A Framework for Learning and Control in Linear Incomplete-Information Differential Games
- arxiv url: http://arxiv.org/abs/2504.17128v1
- Date: Wed, 23 Apr 2025 22:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.190108
- Title: PACE: A Framework for Learning and Control in Linear Incomplete-Information Differential Games
- Title(参考訳): PACE: 線形不完全情報差分ゲームにおける学習と制御のためのフレームワーク
- Authors: Seyed Yousef Soltanian, Wenlong Zhang,
- Abstract要約: 本稿では,他のエージェントのコストパラメータを学習するためのモデルに基づくピア・アウェア・コスト推定フレームワークを提案する。
PACEにおけるパラメータ推定の収束とシステム状態の安定性に関する理論的保証を提供する。
- 参考スコア(独自算出の注目度): 7.1177896599806205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we address the problem of a two-player linear quadratic differential game with incomplete information, a scenario commonly encountered in multi-agent control, human-robot interaction (HRI), and approximation methods for solving general-sum differential games. While solutions to such linear differential games are typically obtained through coupled Riccati equations, the complexity increases when agents have incomplete information, particularly when neither is aware of the other's cost function. To tackle this challenge, we propose a model-based Peer-Aware Cost Estimation (PACE) framework for learning the cost parameters of the other agent. In PACE, each agent treats its peer as a learning agent rather than a stationary optimal agent, models their learning dynamics, and leverages this dynamic to infer the cost function parameters of the other agent. This approach enables agents to infer each other's objective function in real time based solely on their previous state observations and dynamically adapt their control policies. Furthermore, we provide a theoretical guarantee for the convergence of parameter estimation and the stability of system states in PACE. Additionally, in our numerical studies, we demonstrate how modeling the learning dynamics of the other agent benefits PACE, compared to approaches that approximate the other agent as having complete information, particularly in terms of stability and convergence speed.
- Abstract(参考訳): 本稿では,マルチエージェント制御,ヒューマンロボットインタラクション(HRI),一般のサム差分ゲーム解法などにおいて一般的に発生する,不完全情報を持つ2プレーヤ線形二次微分ゲームの問題に対処する。
このような線型微分ゲームに対する解は通常、結合されたリカティ方程式によって得られるが、エージェントが不完全情報を持つとき、特にエージェントが他方のコスト関数に気付かないとき、複雑さは増大する。
この課題に対処するために、他のエージェントのコストパラメータを学習するためのモデルベースのPACE(Peer-Aware Cost Estimation)フレームワークを提案する。
PACEでは、各エージェントはそのピアを定常的最適エージェントではなく学習エージェントとして扱い、学習ダイナミクスをモデル化し、このダイナミクスを利用して他のエージェントのコスト関数パラメータを推測する。
このアプローチにより、エージェントは、以前の状態観察のみに基づいて、互いに目的の機能をリアルタイムで推測し、制御ポリシーを動的に適応することができる。
さらに,パラメータ推定の収束とPACEにおけるシステム状態の安定性を理論的に保証する。
さらに,本研究では,他のエージェントの学習力学のモデル化がPACEにどのような恩恵をもたらすかを示すとともに,他のエージェントを完全情報,特に安定性と収束速度の観点から近似したアプローチとの比較を行った。
関連論文リスト
- Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference [7.1177896599806205]
汎用動的ゲームのための非線形ピアアウェアコスト推定アルゴリズムを提案する。
N-PACEは、目的関数を推論しながら、ピアエージェントの学習ダイナミクスを明示的にモデル化する。
我々は、N-PACEが、ピアの学習力学を明示的にモデル化することにより、このようなマルチエージェントシステムにおけるテキスト境界通信を実現する方法を示す。
論文 参考訳(メタデータ) (2025-04-23T22:47:20Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
我々は、中程度のレベルの情報共有でも、環境固有のエラーを著しく軽減できることを示した。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Interpretable Interaction Modeling for Trajectory Prediction via Agent Selection and Physical Coefficient [1.6954753390775528]
本稿では、手動で対話エージェントを選択し、Transformerの注目スコアを新たに計算された物理相関係数に置き換えるASPILinを提案する。
驚くべきことに、これらの単純な修正は予測性能を大幅に改善し、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-05-21T18:45:18Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Random Feature Models for Learning Interacting Dynamical Systems [2.563639452716634]
エージェントの経路のノイズ観測から直接相互作用力のデータに基づく近似を構築することの問題点を考察する。
学習された相互作用カーネルは、長い時間間隔でエージェントの振る舞いを予測するために使用される。
さらに,カーネル評価コストを削減し,マルチエージェントシステムのシミュレーションコストを大幅に削減する。
論文 参考訳(メタデータ) (2022-12-11T20:09:36Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。