Fugu-MT 論文翻訳(概要): Stubborn: An Environment for Evaluating Stubbornness between Agents with Aligned Incentives

論文の概要: Stubborn: An Environment for Evaluating Stubbornness between Agents with Aligned Incentives

arxiv url: http://arxiv.org/abs/2304.12280v2
Date: Fri, 28 Apr 2023 16:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-01 16:23:10.583601
Title: Stubborn: An Environment for Evaluating Stubbornness between Agents with Aligned Incentives
Title（参考訳）: Stubborn: インセンティブのあるエージェント間のスタバボーン性を評価する環境
Authors: Ram Rachum, Yonatan Nakar, Reuth Mirsky
Abstract要約: フルアラインインセンティブを持つエージェント間の頑健性を評価する環境であるStubbornについて紹介する。予備的な結果として, エージェントは, パートナーの頑健さを, 環境における選択の改善のシグナルとして活用することを学ぶ。
参考スコア（独自算出の注目度）: 4.022057598291766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research in multi-agent reinforcement learning (MARL) has shown success in learning social behavior and cooperation. Social dilemmas between agents in mixed-sum settings have been studied extensively, but there is little research into social dilemmas in fullycooperative settings, where agents have no prospect of gaining reward at another agent's expense. While fully-aligned interests are conducive to cooperation between agents, they do not guarantee it. We propose a measure of "stubbornness" between agents that aims to capture the human social behavior from which it takes its name: a disagreement that is gradually escalating and potentially disastrous. We would like to promote research into the tendency of agents to be stubborn, the reactions of counterpart agents, and the resulting social dynamics. In this paper we present Stubborn, an environment for evaluating stubbornness between agents with fully-aligned incentives. In our preliminary results, the agents learn to use their partner's stubbornness as a signal for improving the choices that they make in the environment.
Abstract（参考訳）: マルチエージェント強化学習(MARL)の最近の研究は、社会的行動と協調の学習に成功している。混合サム設定におけるエージェント間の社会的ジレンマは広く研究されているが、他のエージェントの費用で報酬を得る見込みのない完全協調環境での社会的ジレンマについてはほとんど研究されていない。完全一致の利益はエージェント間の協力に寄与するが、彼らはそれを保証しない。我々は,その名称を冠する人間の社会的行動を捉えようとするエージェント間の「頑固さ」の尺度を提案し,その不一致は徐々にエスカレートし,潜在的に悲惨なものになる可能性がある。エージェントの頑固な傾向、対応するエージェントの反応、結果として生じる社会的ダイナミクスについて、研究を進めたいと思います。本稿では,完全一致するインセンティブを有するエージェント間の頑固さを評価するための環境であるstubbornを提案する。予備的な結果から, エージェントは, パートナーの頑固さを, 環境における選択性を改善するシグナルとして利用することを学ぶ。

関連論文リスト

Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文参考訳（メタデータ） (2024-12-20T09:21:15Z)
Can Agents Spontaneously Form a Society? Introducing a Novel Architecture for Generative Multi-Agents to Elicit Social Emergence [0.11249583407496219]
我々は,ITCMA-Sと呼ばれる生成エージェントアーキテクチャを導入し,個々のエージェントの基本的なフレームワークと,マルチエージェント間のソーシャルインタラクションをサポートするフレームワークを紹介する。このアーキテクチャは、エージェントが社会的相互作用に有害な行動を識別し、フィルタリングし、より好ましい行動を選択するように誘導することを可能にする。
論文参考訳（メタデータ） (2024-09-10T13:39:29Z)
Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents [3.7414804164475983]
本研究では、道徳的に異質な集団が社会的ジレンマ環境で相互作用する学習力学について研究する。我々は、親社会と反社会的エージェント間のいくつかの非自明な相互作用を観察する。ある種の道徳的エージェントは、より協調的な行動に向けて利己的なエージェントを操ることができる。
論文参考訳（メタデータ） (2024-03-07T04:12:24Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文参考訳（メタデータ） (2023-12-15T05:09:32Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文参考訳（メタデータ） (2023-08-21T16:47:11Z)
Mediated Multi-Agent Reinforcement Learning [3.8581550679584473]
社会福祉を最大化するために、政策グラデーションを持つエージェントとともに仲介者を訓練する方法を示す。行列ゲームと反復ゲームにおける実験は,マルチエージェント強化学習におけるメディエータの適用の可能性を強調した。
論文参考訳（メタデータ） (2023-06-14T10:31:37Z)
Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文参考訳（メタデータ） (2022-05-04T09:54:33Z)
A mechanism of Individualistic Indirect Reciprocity with internal and external dynamics [0.0]
本研究は,エージェントの態度に着目した Nowak モデルと Sigmund モデルの新しい変種を提案する。エージェントベースモデルとデータサイエンス手法を用いて,エージェントの識別的スタンスがほとんどの場合優位であることを示す。また, 他者の評判が不明な場合には, 不均一性が高く, 協力需要が高い場合には, 異種社会が得られることも示唆した。
論文参考訳（メタデータ） (2021-05-28T23:28:50Z)
Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文参考訳（メタデータ） (2020-11-12T19:04:26Z)
Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文参考訳（メタデータ） (2020-06-10T20:12:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。