論文の概要: Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety
- arxiv url: http://arxiv.org/abs/2305.19223v1
- Date: Tue, 30 May 2023 17:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:46:03.315823
- Title: Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety
- Title(参考訳): インテント・アラインなAIシステムは人事機関を減らし、AI安全に関する機関の基礎研究の必要性
- Authors: Catalin Mitelut, Ben Smith, Peter Vamplew
- Abstract要約: 人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
- 参考スコア(独自算出の注目度): 2.3572498744567127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of artificial intelligence (AI) systems suggests that
artificial general intelligence (AGI) systems may soon arrive. Many researchers
are concerned that AIs and AGIs will harm humans via intentional misuse
(AI-misuse) or through accidents (AI-accidents). In respect of AI-accidents,
there is an increasing effort focused on developing algorithms and paradigms
that ensure AI systems are aligned to what humans intend, e.g. AI systems that
yield actions or recommendations that humans might judge as consistent with
their intentions and goals. Here we argue that alignment to human intent is
insufficient for safe AI systems and that preservation of long-term agency of
humans may be a more robust standard, and one that needs to be separated
explicitly and a priori during optimization. We argue that AI systems can
reshape human intention and discuss the lack of biological and psychological
mechanisms that protect humans from loss of agency. We provide the first formal
definition of agency-preserving AI-human interactions which focuses on
forward-looking agency evaluations and argue that AI systems - not humans -
must be increasingly tasked with making these evaluations. We show how agency
loss can occur in simple environments containing embedded agents that use
temporal-difference learning to make action recommendations. Finally, we
propose a new area of research called "agency foundations" and pose four
initial topics designed to improve our understanding of agency in AI-human
interactions: benevolent game theory, algorithmic foundations of human rights,
mechanistic interpretability of agency representation in neural-networks and
reinforcement learning from internal states.
- Abstract(参考訳): 人工知能(AI)システムの急速な進歩は、人工知能(AGI)システムがまもなくやってくることを示唆している。
多くの研究者は、AIとAIが意図的な誤用(AI誤用)や事故(AI事故)によって人間を傷つけるのではないかと懸念している。
AI事故に関しては、AIシステムが人間の意図と一致していることを保証するアルゴリズムやパラダイムの開発に重点が置かれている。
ここでは、人間の意図の一致は、安全なAIシステムには不十分であり、人間の長期的な機関の保存は、より堅牢な標準であり、最適化中に明示的に分離する必要がある。
我々は、AIシステムが人間の意図を再構築し、人間をエージェントの喪失から守る生物学的・心理的メカニズムの欠如を議論することができると論じる。
我々は、先見的な機関評価に焦点を当てた、機関保存AI-ヒューマンインタラクションの最初の正式な定義を提供する。
時間差学習を用いて行動レコメンデーションを行う組込みエージェントを含む単純な環境において,エージェントの損失がどのように生じるかを示す。
最後に、「緊急基盤」と呼ばれる新しい研究分野を提案し、AIと人間の相互作用におけるエージェントの理解を改善するために設計された4つの最初のトピックを提示する: 受益ゲーム理論、人権のアルゴリズム的基礎、ニューラルネットワークにおけるエージェント表現の機械論的解釈可能性、内部状態からの強化学習。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Applying HCAI in developing effective human-AI teaming: A perspective
from human-AI joint cognitive systems [10.746728034149989]
研究と応用は、AIシステムを開発するための新しいパラダイムとして、HAT(Human-AI Teaming)を使用している。
我々は,人間とAIの協調認知システム(HAIJCS)の概念的枠組みについて詳しく検討する。
本稿では,HATを表現・実装するためのヒューマンAI共同認知システム(HAIJCS)の概念的枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:26:38Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - BIASeD: Bringing Irrationality into Automated System Design [12.754146668390828]
我々は、人間と機械のコラボレーションの未来は、人間の認知バイアスをモデル化し、理解し、おそらく複製するAIシステムの開発を必要とすると主張している。
我々は、AIシステムの観点から既存の認知バイアスを分類し、3つの幅広い関心領域を特定し、私たちのバイアスをよりよく理解するAIシステムの設計のための研究の方向性を概説する。
論文 参考訳(メタデータ) (2022-10-01T02:52:38Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Meaningful human control over AI systems: beyond talking the talk [8.351027101823705]
私たちは、AIベースのシステムが有意義な人間の制御下にある必要がある4つの特性を特定します。
第一に、人間とAIアルゴリズムが相互作用するシステムは、道徳的にロードされた状況の明確に定義された領域を持つべきである。
第2に、システム内の人間とAIエージェントは、適切かつ相互に互換性のある表現を持つべきである。
第三に、人間に帰属する責任は、その人のシステムを支配する能力と権限に相応すべきである。
論文 参考訳(メタデータ) (2021-11-25T11:05:37Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Socially Responsible AI Algorithms: Issues, Purposes, and Challenges [31.382000425295885]
技術者とAI研究者は、信頼できるAIシステムを開発する責任がある。
AIと人間の長期的な信頼を構築するためには、アルゴリズムの公正性を超えて考えることが鍵だ、と私たちは主張する。
論文 参考訳(メタデータ) (2021-01-01T17:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。