論文の概要: An active learning method for solving competitive multi-agent decision-making and control problems
- arxiv url: http://arxiv.org/abs/2212.12561v5
- Date: Mon, 07 Oct 2024 10:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:08:31.453484
- Title: An active learning method for solving competitive multi-agent decision-making and control problems
- Title(参考訳): 競争力のあるマルチエージェント意思決定・制御問題の解法
- Authors: Filippo Fabiani, Alberto Bemporad,
- Abstract要約: 競合エージェントの集団に対する定常行動プロファイルを特定するための,新しいアクティブラーニング手法を提案する。
提案手法は,典型的なマルチエージェント制御と意思決定問題に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 1.2430809884830318
- License:
- Abstract: To identify a stationary action profile for a population of competitive agents, each executing private strategies, we introduce a novel active-learning scheme where a centralized external observer (or entity) can probe the agents' reactions and recursively update simple local parametric estimates of the action-reaction mappings. Under very general working assumptions (not even assuming that a stationary profile exists), sufficient conditions are established to assess the asymptotic properties of the proposed active learning methodology so that, if the parameters characterizing the action-reaction mappings converge, a stationary action profile is achieved. Such conditions hence act also as certificates for the existence of such a profile. Extensive numerical simulations involving typical competitive multi-agent control and decision-making problems illustrate the practical effectiveness of the proposed learning-based approach.
- Abstract(参考訳): 競合エージェントの集団に対する定常的行動プロファイルを識別するために、それぞれがプライベート戦略を実行するために、エージェントの反応を探索し、アクション・アクション・マッピングの単純な局所パラメトリック推定を再帰的に更新する、新しいアクティブ・ラーニング・スキームを導入する。
非常に一般的な作業仮定(静止プロファイルの存在を前提としない)の下では、提案したアクティブラーニング手法の漸近特性を評価するのに十分な条件が確立され、アクション-反応マッピングを特徴付けるパラメータが収束すると、定常動作プロファイルが達成される。
このような条件は、そのようなプロファイルが存在することの証明書としても機能する。
典型的な競合型マルチエージェント制御と意思決定問題を含む広範囲な数値シミュレーションにより,提案手法の有効性が示された。
関連論文リスト
- Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Distributed Bayesian Online Learning for Cooperative Manipulation [9.582645137247667]
ベイズ原理を用いた協調操作の模範的タスクのための新しい分散学習フレームワークを提案する。
各エージェントは、局所状態情報のみを使用して、オブジェクトダイナミクスの推定を取得し、キネマティクスを把握する。
対象のダイナミクスと把持キネマティックスの各々の推定には不確実性の尺度が伴うため、高い確率で有界な予測誤差を保証できる。
論文 参考訳(メタデータ) (2021-04-09T13:03:09Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。