論文の概要: On Corrigibility and Alignment in Multi Agent Games
- arxiv url: http://arxiv.org/abs/2501.05360v1
- Date: Thu, 09 Jan 2025 16:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:28.721869
- Title: On Corrigibility and Alignment in Multi Agent Games
- Title(参考訳): マルチエージェントゲームにおける調整性とアライメントについて
- Authors: Edmund Dable-Heath, Boyko Vodenicharski, James Bishop,
- Abstract要約: 自律エージェントの信頼性はシステム設計の未調査部分である。
人間の嗜好に対する不確実性は、人間の不合理性に直面した場合でも、エージェントを矯正するために働くことが示唆されている。
本稿では,エージェントが常に人間に監督を依頼できる2人プレイヤゲームとして,マルチエージェント設定でコーリライザをモデル化するための一般的な枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Corrigibility of autonomous agents is an under explored part of system design, with previous work focusing on single agent systems. It has been suggested that uncertainty over the human preferences acts to keep the agents corrigible, even in the face of human irrationality. We present a general framework for modelling corrigibility in a multi-agent setting as a 2 player game in which the agents always have a move in which they can ask the human for supervision. This is formulated as a Bayesian game for the purpose of introducing uncertainty over the human beliefs. We further analyse two specific cases. First, a two player corrigibility game, in which we want corrigibility displayed in both agents for both common payoff (monotone) games and harmonic games. Then we investigate an adversary setting, in which one agent is considered to be a `defending' agent and the other an `adversary'. A general result is provided for what belief over the games and human rationality the defending agent is required to have to induce corrigibility.
- Abstract(参考訳): 自律エージェントの整合性はシステム設計の未熟な部分であり、以前の研究は単一エージェントシステムに重点を置いていた。
人間の嗜好に対する不確実性は、人間の不合理性に直面した場合でも、エージェントを矯正するために働くことが示唆されている。
本稿では,エージェントが常に人間に監督を依頼できる2人プレイヤゲームとして,マルチエージェント設定でコーリライザをモデル化するための一般的な枠組みを提案する。
これは、人間の信念に対する不確実性を導入するためにベイズゲームとして定式化されている。
さらに2つの特定のケースを分析します。
まず、共通のペイオフゲーム(モノトーン)ゲームとハーモニックゲームの両方で、両方のエージェントにコーリライザを表示させたい2人のプレーヤーのコーリライザゲームである。
次に,一方のエージェントを「防御」エージェントとみなし,他方のエージェントを「敵」とみなす敵の設定について検討する。
ゲームに対する信念と人間の合理性に対して一般的な結果が提供され、防御エージェントは矯正性を誘導する必要がある。
関連論文リスト
- Safe Exploitative Play with Untrusted Type Beliefs [21.177698937011183]
本研究では,複数のエージェントからなるシステムにおいて,一つのエージェントを制御するという考え方について検討する。
この種の信念は、しばしば過去の行動から学び、誤りである可能性が高い。
リスクと機会のトレードオフを定義し、最適のペイオフに対して得られるペイオフを比較します。
論文 参考訳(メタデータ) (2024-11-12T09:49:16Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Cooperation and Control in Delegation Games [1.3518297878940662]
マルチプリンシパル・マルチエージェントシナリオをデリゲートゲームとして研究する。
このようなゲームでは、制御の問題と協調の問題の2つの重要な障害モードがある。
理論上、実証的に、これらの措置が校長の福祉をどのように決定するかを示します。
論文 参考訳(メタデータ) (2024-02-24T14:17:41Z) - Toward Human-AI Alignment in Large-Scale Multi-Player Games [24.784173202415687]
我々はXboxのBleeding Edge(100K+ゲーム)から広範囲にわたる人間のゲームプレイデータを解析する。
人間のプレイヤーは、戦闘飛行や探索飛行行動において多様性を示す一方で、AIプレイヤーは均一性に向かう傾向にある。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-05T22:55:33Z) - Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文 参考訳(メタデータ) (2022-09-16T07:35:20Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - How and Why to Manipulate Your Own Agent [5.634825161148484]
我々は,何人ものユーザが繰り返しオンラインインタラクションを行う戦略的な設定を考察し,その代わりに繰り返し「ゲーム」をプレイする後悔を最小化するエージェントの支援を行う。
エージェントの繰り返しゲームにおけるダイナミクスと平均結果について検討し,ユーザ間のメタゲームとして捉えた。
論文 参考訳(メタデータ) (2021-12-14T18:35:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。