論文の概要: An active learning method for solving competitive multi-agent
decision-making and control problems
- arxiv url: http://arxiv.org/abs/2212.12561v2
- Date: Mon, 28 Aug 2023 14:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:05:04.875573
- Title: An active learning method for solving competitive multi-agent
decision-making and control problems
- Title(参考訳): 競争型マルチエージェント意思決定と制御問題を解決するアクティブラーニング手法
- Authors: Filippo Fabiani, Alberto Bemporad
- Abstract要約: 対話エージェントの集団によって実行される私的戦略を再構築するための,能動的学習に基づくスキームを提案する。
学習手順を取り入れた外部オブザーバが、プライベートアクション・リアクションマッピングを通じてクエリを作成し、エージェントの反応を観察できるシナリオを想定する。
- 参考スコア(独自算出の注目度): 1.4685355149711299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a scheme based on active learning to reconstruct private
strategies executed by a population of interacting agents and predict an exact
outcome of the underlying multi-agent interaction process, here identified as a
stationary action profile. We envision a scenario where an external observer,
endowed with a learning procedure, can make queries and observe the agents'
reactions through private action-reaction mappings, whose collective fixed
point corresponds to a stationary profile. By iteratively collecting sensible
data and updating parametric estimates of the action-reaction mappings, we
establish sufficient conditions to assess the asymptotic properties of the
proposed active learning methodology so that, if convergence happens, it can
only be towards a stationary action profile. This fact yields two main
consequences: i) learning locally-exact surrogates of the action-reaction
mappings allows the external observer to succeed in its prediction task, and
ii) working with assumptions so general that a stationary profile is not even
guaranteed to exist, the established sufficient conditions hence act also as
certificates for the existence of such a desirable profile. Extensive numerical
simulations involving typical competitive multi-agent control and
decision-making problems illustrate the practical effectiveness of the proposed
learning-based approach.
- Abstract(参考訳): 本稿では,対話エージェントの集団によって実行される私的戦略を再構築し,その基盤となるマルチエージェントインタラクションプロセスの正確な結果を予測するための,アクティブラーニングに基づくスキームを提案する。
学習手順を取り入れた外部オブザーバがクエリを作成し,その集合的固定点が定常プロファイルに対応するプライベートアクション・リアクションマッピングを通じてエージェントの反応を観察するシナリオを想定する。
そこで,本提案手法の漸近的特性を評価するために,適切なデータを反復的に収集し,パラメトリック推定値の更新を行うことで,収束が生じた場合,定常的な行動プロファイルにのみ対応できることを示す。
この事実は2つの大きな結果をもたらします
一 外部の観察者がその予測タスクを成功させることができる行動対応マッピングの局所的実行代行を学習すること。
二 定型プロファイルの存在が保証されないような仮定を定め、従って、確立された十分な条件は、当該望まれるプロファイルの存在の証明書としても機能する。
典型的な競合型マルチエージェント制御と意思決定問題を含む広範な数値シミュレーションにより,提案手法の有効性が示された。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Distributed Bayesian Online Learning for Cooperative Manipulation [9.582645137247667]
ベイズ原理を用いた協調操作の模範的タスクのための新しい分散学習フレームワークを提案する。
各エージェントは、局所状態情報のみを使用して、オブジェクトダイナミクスの推定を取得し、キネマティクスを把握する。
対象のダイナミクスと把持キネマティックスの各々の推定には不確実性の尺度が伴うため、高い確率で有界な予測誤差を保証できる。
論文 参考訳(メタデータ) (2021-04-09T13:03:09Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。