論文の概要: A learning-based approach to multi-agent decision-making
- arxiv url: http://arxiv.org/abs/2212.12561v1
- Date: Fri, 23 Dec 2022 19:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 15:42:58.811066
- Title: A learning-based approach to multi-agent decision-making
- Title(参考訳): 学習に基づくマルチエージェント意思決定手法
- Authors: Filippo Fabiani, Alberto Bemporad
- Abstract要約: 本稿では,対話エージェントの集団が保持する個人情報を再構築する学習手法を提案する。
学習手順を付与した外部オブザーバがクエリを作成でき、エージェントの反応を観察できるシナリオを想定する。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a learning-based methodology to reconstruct private information
held by a population of interacting agents in order to predict an exact outcome
of the underlying multi-agent interaction process, here identified as a
stationary action profile. We envision a scenario where an external observer,
endowed with a learning procedure, is allowed to make queries and observe the
agents' reactions through private action-reaction mappings, whose collective
fixed point corresponds to a stationary profile. By adopting a smart query
process to iteratively collect sensible data and update parametric estimates,
we establish sufficient conditions to assess the asymptotic properties of the
proposed learning-based methodology so that, if convergence happens, it can
only be towards a stationary action profile. This fact yields two main
consequences: i) learning locally-exact surrogates of the action-reaction
mappings allows the external observer to succeed in its prediction task, and
ii) working with assumptions so general that a stationary profile is not even
guaranteed to exist, the established sufficient conditions hence act also as
certificates for the existence of such a desirable profile. Extensive numerical
simulations involving typical competitive multi-agent control and decision
making problems illustrate the practical effectiveness of the proposed
learning-based approach.
- Abstract(参考訳): 本稿では,対話エージェントの集団が保持する個人情報を再構築し,基礎となるマルチエージェントインタラクションプロセスの正確な結果を予測するための学習に基づく手法を提案する。
本稿では,学習手順を具備した外部観測者に対して,個別のアクション・アクション・マッピングによるクエリ作成とエージェントの反応の観察を可能とし,その集合的固定点が定常プロファイルに対応するシナリオを想定する。
スマートクエリプロセスを用いて、反復的にデータを収集し、パラメトリック推定を更新することにより、提案手法の漸近特性を評価するのに十分な条件を確立し、収束が発生した場合、定常動作プロファイルにのみ対応できるようにした。
この事実は2つの大きな結果をもたらします
一 外部の観察者がその予測タスクを成功させることができる行動対応マッピングの局所的実行代行を学習すること。
二 定型プロファイルの存在が保証されないような仮定を定め、従って、確立された十分な条件は、当該望まれるプロファイルの存在の証明書としても機能する。
典型的な競合型マルチエージェント制御と意思決定問題を含む広範な数値シミュレーションにより,提案手法の有効性が示された。
関連論文リスト
- Constrained Exploration in Reinforcement Learning with Optimality
Preservation [2.4671396651514983]
本稿では,エージェントが行動ポリシーに従って個別の状態行動空間を探索し,最適な政策を見つけるための強化学習システムについて考察する。
このような制限は、エージェントがいくつかの状態-作用ペアを訪問することを妨げる可能性がある。
本稿では,最適性保持を伴う制約付き探索の概念を導入し,エージェントの探索動作を仕様を満たすよう制約する。
論文 参考訳(メタデータ) (2023-04-05T15:49:51Z) - Active learning for structural reliability analysis with multiple limit
state functions through variance-enhanced PC-Kriging surrogate models [0.0]
既存のサロゲートモデルをトレーニングするためのアクティブな戦略は、正確な構造的信頼度を推定する。
本研究は,限られた計算予算の下で学習サンプルを効率的に選択するための能動的学習手法の能力について検討する。
論文 参考訳(メタデータ) (2023-02-23T15:01:06Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Concurrent Discrimination and Alignment for Self-Supervised Feature
Learning [52.213140525321165]
既存の自己指導型学習手法は,(1)どの特徴が分離されるべきかを明確に示すこと,あるいは(2)どの特徴が閉じるべきかを明確に示すこと,のいずれかのプリテキストタスクを用いて学習する。
本研究では,識別・調整手法の正の側面を組み合わせて,上記の課題に対処するハイブリッド手法を設計する。
本手法は,識別的予測タスクによってそれぞれ反発とアトラクションのメカニズムを明確に特定し,ペアビュー間の相互情報を同時に最大化する。
確立された9つのベンチマーク実験により,提案モデルが自己監督と移動の既成結果より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-08-19T09:07:41Z) - Distributed Bayesian Online Learning for Cooperative Manipulation [9.582645137247667]
ベイズ原理を用いた協調操作の模範的タスクのための新しい分散学習フレームワークを提案する。
各エージェントは、局所状態情報のみを使用して、オブジェクトダイナミクスの推定を取得し、キネマティクスを把握する。
対象のダイナミクスと把持キネマティックスの各々の推定には不確実性の尺度が伴うため、高い確率で有界な予測誤差を保証できる。
論文 参考訳(メタデータ) (2021-04-09T13:03:09Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Uncertainty-Aware Vehicle Orientation Estimation for Joint
Detection-Prediction Models [12.56249869551208]
オリエンテーションは、自律システムの下流モジュールにとって重要な特性である。
本稿では,既存のモデルを拡張し,共同物体検出と動き予測を行う手法を提案する。
さらに、この手法は予測の不確かさを定量化することができ、推定された向きが反転する確率を出力することができる。
論文 参考訳(メタデータ) (2020-11-05T21:59:44Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。