論文の概要: Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks
- arxiv url: http://arxiv.org/abs/2410.19749v1
- Date: Thu, 10 Oct 2024 17:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:52:31.876688
- Title: Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks
- Title(参考訳): AIアライメント理論を用いて規制フレームワークの潜在的な落とし穴を理解する
- Authors: Alejandro Tlaie,
- Abstract要約: 本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License:
- Abstract: This paper leverages insights from Alignment Theory (AT) research, which primarily focuses on the potential pitfalls of technical alignment in Artificial Intelligence, to critically examine the European Union's Artificial Intelligence Act (EU AI Act). In the context of AT research, several key failure modes - such as proxy gaming, goal drift, reward hacking or specification gaming - have been identified. These can arise when AI systems are not properly aligned with their intended objectives. The central logic of this report is: what can we learn if we treat regulatory efforts in the same way as we treat advanced AI systems? As we systematically apply these concepts to the EU AI Act, we uncover potential vulnerabilities and areas for improvement in the regulation.
- Abstract(参考訳): 本稿では、主に人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究の洞察を活用し、欧州連合の人工知能法(EU AI Act)を批判的に検証する。
ATリサーチの文脈では、プロキシゲーム、ゴールドリフト、報酬ハッキング、仕様ゲームなど、いくつかの重要な障害モードが特定されている。
これらのことは、AIシステムが意図した目的と適切に一致していない場合に起こりうる。
このレポートの中心的な論理は: 高度なAIシステムを扱うのと同じ方法で規制の取り組みを処理すれば、何を学ぶことができるのか?
これらの概念を欧州連合のAI法に体系的に適用することで、潜在的な脆弱性と規制を改善するための領域を明らかにします。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception [4.075971633195745]
ディープニューラルネットワーク(DNN)は、自動運転車の知覚機能の中心となっている。
EU(EU)人工知能(AI)法は、AIシステムの厳格な規範と標準を確立することによって、これらの課題に対処することを目的としている。
本稿では、DNNに基づく知覚システムに関するEU AI法から生じる要件を要約し、ADにおける既存の生成AIアプリケーションを体系的に分類する。
論文 参考訳(メタデータ) (2024-08-30T12:01:06Z) - Responsible Artificial Intelligence: A Structured Literature Review [0.0]
EUは最近、AIへの信頼の必要性を強調するいくつかの出版物を公表した。
これは国際規制の緊急の必要性を浮き彫りにする。
本稿は、私たちの知る限り、責任あるAIの最初の統一された定義を包括的かつ包括的に紹介する。
論文 参考訳(メタデータ) (2024-03-11T17:01:13Z) - How VADER is your AI? Towards a definition of artificial intelligence
systems appropriate for regulation [41.94295877935867]
最近のAI規制提案では、ICT技術、アプローチ、AIではないシステムに影響を与えるAI定義が採用されている。
本稿では,AI定義の規制(VADER)が適切に定義されているかを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-07T17:41:15Z) - AI Alignment: A Comprehensive Survey [70.35693485015659]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Trust, Accountability, and Autonomy in Knowledge Graph-based AI for
Self-determination [1.4305544869388402]
知識グラフ(KG)は、インテリジェントな意思決定を支えるための基盤として登場した。
KGと神経学習の統合は、現在活発な研究のトピックである。
本稿では,KGベースのAIによる自己決定を支援するための基礎的なトピックと研究の柱を概念化する。
論文 参考訳(メタデータ) (2023-10-30T12:51:52Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。