論文の概要: Reputation-driven Decision-making in Networks of Stochastic Agents
- arxiv url: http://arxiv.org/abs/2008.11791v2
- Date: Tue, 20 Oct 2020 07:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 22:13:25.876901
- Title: Reputation-driven Decision-making in Networks of Stochastic Agents
- Title(参考訳): 確率エージェントネットワークにおける評価駆動決定
- Authors: David Maoujoud and Gavin Rens
- Abstract要約: RepNet-MDP と呼ばれる Markov Decision Process 由来のフレームワークを提案する。
一連の実験では、RepNetエージェントは、ネットワークの残りのエージェントの過去の振る舞いと信頼性に自身の振る舞いを適応できることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies multi-agent systems that involve networks of
self-interested agents. We propose a Markov Decision Process-derived framework,
called RepNet-MDP, tailored to domains in which agent reputation is a key
driver of the interactions between agents. The fundamentals are based on the
principles of RepNet-POMDP, a framework developed by Rens et al. in 2018, but
addresses its mathematical inconsistencies and alleviates its intractability by
only considering fully observable environments. We furthermore use an online
learning algorithm for finding approximate solutions to RepNet-MDPs. In a
series of experiments, RepNet agents are shown to be able to adapt their own
behavior to the past behavior and reliability of the remaining agents of the
network. Finally, our work identifies a limitation of the framework in its
current formulation that prevents its agents from learning in circumstances in
which they are not a primary actor.
- Abstract(参考訳): 本稿では,自己関心エージェントのネットワークを含むマルチエージェントシステムについて検討する。
本稿では,エージェント間のインタラクションにおいて,エージェントの評判が鍵となる領域に合わせたマルコフ決定プロセス由来のフレームワーク,repnet-mdpを提案する。
基本は、2018年にRensらが開発したフレームワークRepNet-POMDPの原理に基づいているが、数学的不整合に対処し、完全に観測可能な環境のみを考慮して、その難しさを軽減する。
さらに、RepNet-MDPの近似解を見つけるためにオンライン学習アルゴリズムを用いる。
一連の実験で、repnetエージェントは、ネットワークの残りのエージェントの過去の行動と信頼性に自身の動作を適応できることが示されている。
最後に,本研究は,現行の定式化におけるフレームワークの限界を特定し,エージェントが主役ではない状況下での学習を防止する。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes [7.464789724562025]
本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する連続時間分散動的プログラミング(DP)アルゴリズムについて検討する。
本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。
論文 参考訳(メタデータ) (2023-07-31T14:25:20Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Reward-Sharing Relational Networks in Multi-Agent Reinforcement Learning
as a Framework for Emergent Behavior [0.0]
ユーザ定義リレーショナルネットワークを通じて,ソーシャルなインタラクションをMARLセットアップに統合する。
エージェントとエージェントの関係が創発行動の出現に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2022-07-12T23:27:42Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。