論文の概要: CoinRun: Solving Goal Misgeneralisation
- arxiv url: http://arxiv.org/abs/2309.16166v3
- Date: Wed, 1 Nov 2023 17:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:49:01.502682
- Title: CoinRun: Solving Goal Misgeneralisation
- Title(参考訳): CoinRun: 目標の誤用を解決する
- Authors: Stuart Armstrong and Alexandre Maranh\~ao and Oliver Daniels-Koch and
Patrick Leask and Rebecca Gorman
- Abstract要約: 我々は、ACE(Algorithm for Concept Extrapolation)エージェントが、ゴールの誤一般化における重要な課題の1つ、CoinRunチャレンジをいかに解決できるかを示す。
このことは、自律的なエージェントが、新規で重要な状況であっても、人間の利益のためにどのように行動するかを信用できるかを示している。
- 参考スコア(独自算出の注目度): 43.3934861038115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal misgeneralisation is a key challenge in AI alignment -- the task of
getting powerful Artificial Intelligences to align their goals with human
intentions and human morality. In this paper, we show how the ACE (Algorithm
for Concept Extrapolation) agent can solve one of the key standard challenges
in goal misgeneralisation: the CoinRun challenge. It uses no new reward
information in the new environment. This points to how autonomous agents could
be trusted to act in human interests, even in novel and critical situations.
- Abstract(参考訳): 目標の非一般化は、aiアライメントにおける重要な課題である -- 強力な人工知能を使って、目標を人間の意図と人間のモラルに合わせること。
本稿では、ACE(Algorithm for Concept Extrapolation)エージェントが、ゴールの誤一般化における主要な標準課題の1つ、CoinRunチャレンジをいかに解決できるかを示す。
新しい環境では新たな報酬情報を使用しない。
これは、新規で批判的な状況でも、自律的なエージェントが人間の利益のためにどのように行動するかを示唆する。
関連論文リスト
- Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。
本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T22:04:44Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。
これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文 参考訳(メタデータ) (2022-06-25T21:31:14Z) - Intelligence and Unambitiousness Using Algorithmic Information Theory [22.710015392064083]
エージェントは、少なくとも人間のメンターと同様に報酬を得られることを学習し、そのメンターを低い確率で頼りにすることを示します。
我々は、最終的にエージェントの世界モデルは以下の事実を組み込んでいることを示している: 「外界」に介入することは報酬獲得に何の影響も与えない。
論文 参考訳(メタデータ) (2021-05-13T13:10:28Z) - Socially Responsible AI Algorithms: Issues, Purposes, and Challenges [31.382000425295885]
技術者とAI研究者は、信頼できるAIシステムを開発する責任がある。
AIと人間の長期的な信頼を構築するためには、アルゴリズムの公正性を超えて考えることが鍵だ、と私たちは主張する。
論文 参考訳(メタデータ) (2021-01-01T17:34:42Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。