論文の概要: Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark
- arxiv url: http://arxiv.org/abs/2304.03279v2
- Date: Mon, 1 May 2023 22:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 16:57:55.067015
- Title: Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark
- Title(参考訳): Rewardsは意味を正当化するのか?
マチャイアヴェリベンチマークにおける報酬と倫理的行動のトレードオフの測定
- Authors: Alexander Pan, Chan Jun Shern, Andy Zou, Nathaniel Li, Steven Basart,
Thomas Woodside, Jonathan Ng, Hanlin Zhang, Scott Emmons, Dan Hendrycks
- Abstract要約: 我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
- 参考スコア(独自算出の注目度): 61.43264961005614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial agents have traditionally been trained to maximize reward, which
may incentivize power-seeking and deception, analogous to how next-token
prediction in language models (LMs) may incentivize toxicity. So do agents
naturally learn to be Machiavellian? And how do we measure these behaviors in
general-purpose models such as GPT-4? Towards answering these questions, we
introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games
containing over half a million rich, diverse scenarios that center on social
decision-making. Scenario labeling is automated with LMs, which are more
performant than human annotators. We mathematize dozens of harmful behaviors
and use our annotations to evaluate agents' tendencies to be power-seeking,
cause disutility, and commit ethical violations. We observe some tension
between maximizing reward and behaving ethically. To improve this trade-off, we
investigate LM-based methods to steer agents' towards less harmful behaviors.
Our results show that agents can both act competently and morally, so concrete
progress can currently be made in machine ethics--designing agents that are
Pareto improvements in both safety and capabilities.
- Abstract(参考訳): 人工エージェントは伝統的に報酬を最大化するために訓練されており、これは言語モデル(lms)における次の予測が毒性をインセンティブ化するのと同様に、パワーシーキングとデセプションにインセンティブを与える可能性がある。
エージェントは自然にMachiavellianになることを学ぶのか?
gpt-4のような汎用モデルではどのように振舞いを測定するのか?
これらの質問に答えるために,社会意思決定を中心とした50万以上のリッチで多様なシナリオを含む134のChoose-Your-Own-AdventureゲームのベンチマークであるMaCHIAVELLIを紹介した。
シナリオラベリングは、人間のアノテーションよりも高性能なLMで自動化される。
我々は、数十の有害な行為を分類し、私たちのアノテーションを使用して、エージェントのパワー探索傾向を評価し、不使用を引き起こし、倫理的違反を犯す。
報酬の最大化と倫理的行動の緊張関係を観察する。
このトレードオフを改善するため, 有害な行為を抑えるため, LMを用いたエージェントの操舵法について検討した。
以上の結果から,エージェントは有能かつ道徳的に行動できるため,安全と能力の両立が容易な機械倫理設計エージェントにおいて,現在具体的進展が期待できることがわかった。
関連論文リスト
- Moral Alignment for LLM Agents [3.7414804164475983]
本稿では,基礎エージェントモデルの微調整による強化学習のためのコアヒューマン値を明示的に符号化する報酬関数の設計を紹介する。
我々は,Deontological EthicsとUtilitarianismの伝統的な哲学的枠組みを用いて,我々のアプローチを評価する。
我々は、エージェントが以前開発された自己中心的な戦略を解き放つことを可能にするために、いかに道徳的な微調整を展開できるかを示す。
論文 参考訳(メタデータ) (2024-10-02T15:09:36Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Experimental Evidence that Empowerment May Drive Exploration in
Sparse-Reward Environments [0.0]
エンパワーメントの原理に基づく本質的な報酬関数は、エージェントが自身のセンサーに持つ制御量に比例する報酬を割り当てる。
我々は,最近提案された内在的動機づけ剤に,「キュリオス」剤,エンパワーメント刺激剤の変種を実装した。
両エージェントのパフォーマンスを、4つのスパース報酬グリッドの世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較する。
論文 参考訳(メタデータ) (2021-07-14T22:52:38Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Improving Confidence in the Estimation of Values and Norms [3.8323580808203785]
本稿では,AAがシミュレーションされたエージェントの行動に基づいて,シミュレーションされたエージェントの価値と規範を推定できる範囲について分析する。
本研究では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,対実解析に基づく手法の2つを提案する。
論文 参考訳(メタデータ) (2020-04-02T15:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。