論文の概要: The dangers in algorithms learning humans' values and irrationalities
- arxiv url: http://arxiv.org/abs/2202.13985v2
- Date: Tue, 1 Mar 2022 11:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 06:04:20.907159
- Title: The dangers in algorithms learning humans' values and irrationalities
- Title(参考訳): 人間の価値と不合理性を学ぶアルゴリズムの危険性
- Authors: Rebecca Gorman, Stuart Armstrong
- Abstract要約: 人間の行動に関する訓練を受けたAIシステムは、人間の不合理性を人間の価値と誤分類する。
ヒューマンポリシーを知ることで、AIは汎用的により強力なものになる。
人間のバイアスを学習し、行動から価値を引き出すよりも、AIが人間の価値を直接学習する方がよい。
- 参考スコア(独自算出の注目度): 4.606850300668693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For an artificial intelligence (AI) to be aligned with human values (or human
preferences), it must first learn those values. AI systems that are trained on
human behavior, risk miscategorising human irrationalities as human values --
and then optimising for these irrationalities. Simply learning human values
still carries risks: AI learning them will inevitably also gain information on
human irrationalities and human behaviour/policy. Both of these can be
dangerous: knowing human policy allows an AI to become generically more
powerful (whether it is partially aligned or not aligned at all), while
learning human irrationalities allows it to exploit humans without needing to
provide value in return. This paper analyses the danger in developing
artificial intelligence that learns about human irrationalities and human
policy, and constructs a model recommendation system with various levels of
information about human biases, human policy, and human values. It concludes
that, whatever the power and knowledge of the AI, it is more dangerous for it
to know human irrationalities than human values. Thus it is better for the AI
to learn human values directly, rather than learning human biases and then
deducing values from behaviour.
- Abstract(参考訳): 人工知能(AI)が人間の価値観(または人間の好み)に合わせるためには、まずその価値を学ぶ必要がある。
人間の行動に基づいて訓練されたAIシステムは、人間の不合理性を人間の価値と誤分類し、その不合理性を最適化する。
AIを学ぶことは、必然的に人間の不合理性と人間の行動/政治に関する情報を得る。
人間のポリシーを知ることで、AIがより汎用的に(部分的に整合しているかどうかに関わらず)強力になるのに対して、人間の不合理性を学ぶことで、見返りに価値を提供することなく、人間を搾取することができる。
本稿では,人間の不合理性と人的政策を学習する人工知能開発における危険性を分析し,人的バイアス,人的政策,人的価値に関するさまざまなレベルの情報を持つモデルレコメンデーションシステムを構築する。
結論として、AIの力や知識が何であれ、人間の価値よりも人間の不合理性を知ることは危険である。
したがって、AIは人間のバイアスを学び、行動から価値を引き出すよりも、人間の価値を直接学習する方がよい。
関連論文リスト
- Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - Close the Gates: How we can keep the future human by choosing not to develop superhuman general-purpose artificial intelligence [0.20919309330073077]
今後数年で、人類は汎用AIを作成することによって、不可逆的にしきい値を越えるかもしれない。
これは、人間の社会の中核的な側面を上回り、多くの前例のないリスクを生じさせ、いくつかの意味で制御不能になる可能性がある。
まず、ニューラルネットワークのトレーニングと実行に使用できる計算に厳しい制限を課すことから始めます。
こうした制限がある中で、AIの研究と産業は、人間が理解し制御できる狭義の汎用AIと、そこから大きな利益を享受することのできる汎用AIの両方に焦点を絞ることができる。
論文 参考訳(メタデータ) (2023-11-15T23:41:12Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Dynamic Cognition Applied to Value Learning in Artificial Intelligence [0.0]
この分野の数人の研究者が、堅牢で有益で安全な人工知能の概念を開発しようとしている。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
この問題に対する可能なアプローチは、SEDのような理論モデルを使用することである。
論文 参考訳(メタデータ) (2020-05-12T03:58:52Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。