Fugu-MT 論文翻訳(概要): Accumulating Risk Capital Through Investing in Cooperation

論文の概要: Accumulating Risk Capital Through Investing in Cooperation

arxiv url: http://arxiv.org/abs/2101.10305v1
Date: Mon, 25 Jan 2021 18:41:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-14 19:01:51.971097
Title: Accumulating Risk Capital Through Investing in Cooperation
Title（参考訳）: 協力投資によるリスク資本の蓄積
Authors: Charlotte Roman, Michael Dennis, Andrew Critch, Stuart Russell
Abstract要約: 安全と協力のトレードオフは厳しいものではなく、少ないリスクから協力することで指数関数的に大きな利益を得ることができることを示す。協力投資によるリスク資本の蓄積(ARCTIC)を目標とした教育方針の策定方法を提案する。
参考スコア（独自算出の注目度）: 12.053132866404972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work on promoting cooperation in multi-agent learning has resulted in many methods which successfully promote cooperation at the cost of becoming more vulnerable to exploitation by malicious actors. We show that this is an unavoidable trade-off and propose an objective which balances these concerns, promoting both safety and long-term cooperation. Moreover, the trade-off between safety and cooperation is not severe, and you can receive exponentially large returns through cooperation from a small amount of risk. We study both an exact solution method and propose a method for training policies that targets this objective, Accumulating Risk Capital Through Investing in Cooperation (ARCTIC), and evaluate them in iterated Prisoner's Dilemma and Stag Hunt.
Abstract（参考訳）: マルチエージェント学習における協力を促進する最近の取り組みは、悪意のあるアクターによる搾取に対してより脆弱になるコストで協力を促進する多くの方法をもたらしました。これは避けられないトレードオフであり、これらの懸念をバランスさせ、安全と長期協力の両立を促進する目標を提案する。さらに、安全と協力のトレードオフは深刻ではなく、少量のリスクから協力することで指数関数的に大きな利益を得ることができる。本研究は,厳密な解決方法と,この目標を目標とする政策の訓練方法,Arccumulating Risk Capital Through Investing in Cooperation (ARCTIC) について検討し,これらを反復した囚人のジレンマとスタッグハントで評価する。

関連論文リスト

In Which Areas of Technical AI Safety Could Geopolitical Rivals Cooperate? [66.89036079974998]
我々は、AI安全研究における国際協力のリスクに影響を与える技術的要因を考察する。我々は,このような協力が危険な能力を向上し,機密情報の共有や害の機会を提供する程度に焦点をあてる。我々は、技術的AI安全研究の協力に特有の主要なリスクを考慮して、関連するリスクを管理する既存のフレームワークを補うことができると論じる。
論文参考訳（メタデータ） (2025-04-17T13:03:56Z)
Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文参考訳（メタデータ） (2025-02-26T14:00:35Z)
Tackling Uncertainties in Multi-Agent Reinforcement Learning through Integration of Agent Termination Dynamics [9.263837897126871]
MARL(Multi-Agent Reinforcement Learning)は、複雑な現実世界のタスクを解くために大きな注目を集めている。これらの環境における本質性と不確実性は、効率的で堅牢な政策学習に重大な課題をもたらす。本稿では,MARLタスクの収束性を改善するために,分散学習と安全に着目した損失関数を統合した新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-21T11:31:01Z)
CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation [98.11670473661587]
CaPoは,1)メタプラン生成,2)プログレッシブなメタプランと実行の2つのフェーズで協調効率を向上する。 3Dworld Multi-Agent TransportとCommunicative Watch-And-Helpタスクの実験結果は、CaPoが最先端技術と比較してタスク完了率と効率をはるかに高めることを示した。
論文参考訳（メタデータ） (2024-11-07T13:08:04Z)
Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文参考訳（メタデータ） (2024-10-24T10:48:42Z)
Cognitive Insights and Stable Coalition Matching for Fostering Multi-Agent Cooperation [6.536780912510439]
本稿では,ToMレベルの異なるエージェントの強度を利用する新しい連立機構を提案する。我々の研究は、ToMを活用して、より高度で人間らしいコーディネーション戦略を構築する可能性を実証しています。
論文参考訳（メタデータ） (2024-05-28T10:59:33Z)
Emergent Cooperation under Uncertain Incentive Alignment [7.906156032228933]
頻繁な出会いを特徴とするシナリオにおける強化学習エージェント間の協力関係について検討する。本研究では,複合モチベーション環境における協調を促進するために文献で提案されている評価や本質的な報酬などのメカニズムの効果について検討する。
論文参考訳（メタデータ） (2024-01-23T10:55:54Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
A Hierarchical Approach to Population Training for Human-AI Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文参考訳（メタデータ） (2023-05-26T07:53:12Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文参考訳（メタデータ） (2023-02-14T07:23:59Z)
Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。 IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文参考訳（メタデータ） (2021-02-10T01:58:28Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。