論文の概要: A Cooperative Reinforcement Learning Environment for Detecting and
Penalizing Betrayal
- arxiv url: http://arxiv.org/abs/2210.12841v1
- Date: Sun, 23 Oct 2022 20:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 22:11:08.524234
- Title: A Cooperative Reinforcement Learning Environment for Detecting and
Penalizing Betrayal
- Title(参考訳): Betrayalの検出と罰則化のための協調強化学習環境
- Authors: Nikiforos Pittaras
- Abstract要約: 本稿では,エージェントの協調とコミュニケーションを活用した強化学習環境を提案する。
ゲームルールの説明と、裏切られたり、トレードオフが発生したりする興味深い事例を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we present a Reinforcement Learning environment that leverages
agent cooperation and communication, aimed at detection, learning and
ultimately penalizing betrayal patterns that emerge in the behavior of
self-interested agents. We provide a description of game rules, along with
interesting cases of betrayal and trade-offs that arise. Preliminary
experimental investigations illustrate a) betrayal emergence, b) deceptive
agents outperforming honest baselines and b) betrayal detection based on
classification of behavioral features, which surpasses probabilistic detection
baselines. Finally, we propose approaches for penalizing betrayal, list
directions for future work and suggest interesting extensions of the
environment towards capturing and exploring increasingly complex patterns of
social interactions.
- Abstract(参考訳): 本稿では,エージェントの協調とコミュニケーションを活用した強化学習環境を提案する。
ゲームルールの説明と、裏切られたりトレードオフが発生したりする興味深い事例を提供する。
予備実験の結果は
a) 裏切りの出現
ロ 虚偽のエージェントが正直な基準を上回り、
b) 行動特徴の分類に基づく裏切り検出は,確率的検出基準を超える。
最後に, 裏切りを罰し, 今後の仕事の方向性を列挙する手法を提案し, 社会的相互作用の複雑なパターンを捉え, 探求するための環境の興味深い拡張を提案する。
関連論文リスト
- Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Open Set Relation Extraction via Unknown-Aware Training [72.10462476890784]
負のインスタンスを動的に合成することでモデルを正規化する未知の学習手法を提案する。
テキストの敵対的攻撃に触発されて、我々は適応的に、小さいが重要な摂動を元のトレーニングインスタンスに適用する。
実験結果から, 既知の関係の分類を損なうことなく, 未知の関係検出を行うことができた。
論文 参考訳(メタデータ) (2023-06-08T05:45:25Z) - Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives [4.022057598291766]
フルアラインインセンティブを持つエージェント間の頑健性を評価する環境であるStubbornについて紹介する。
予備的な結果として, エージェントは, パートナーの頑健さを, 環境における選択の改善のシグナルとして活用することを学ぶ。
論文 参考訳(メタデータ) (2023-04-24T17:19:15Z) - Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a
Jointly Trained Generative Latent Space [0.0]
本稿では, 強化学習剤(RL)の新規な生成法を提案する。
提案手法では,エージェントの動作に関連する観測および結果変数に関する情報を共同で符号化する潜在空間の学習に,変分オートエンコーダを用いる。
論文 参考訳(メタデータ) (2022-07-15T19:09:54Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z) - Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment [61.24399136715106]
我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
論文 参考訳(メタデータ) (2020-10-08T15:08:40Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。