論文の概要: Circumventing interpretability: How to defeat mind-readers
- arxiv url: http://arxiv.org/abs/2212.11415v1
- Date: Wed, 21 Dec 2022 23:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:01:57.365266
- Title: Circumventing interpretability: How to defeat mind-readers
- Title(参考訳): 解釈の回避:マインドリーダーを倒す方法
- Authors: Lee Sharkey
- Abstract要約: ミスアライメントされた人工知能は 思考の理解を難しくする 集中的なインセンティブを持つでしょう
有能なAIがスケーラブルな解釈可能性手法を回避できる多くの方法について議論し、これらの潜在的な将来のリスクについて考えるためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing capabilities of artificial intelligence (AI) systems make it
ever more important that we interpret their internals to ensure that their
intentions are aligned with human values. Yet there is reason to believe that
misaligned artificial intelligence will have a convergent instrumental
incentive to make its thoughts difficult for us to interpret. In this article,
I discuss many ways that a capable AI might circumvent scalable
interpretability methods and suggest a framework for thinking about these
potential future risks.
- Abstract(参考訳): 人工知能(AI)システムの能力の増大により、彼らの意図が人間の価値観と一致していることを保証するために、内部を解釈することがより重要になる。
しかし、不一致の人工知能が、私たちの理解を困難にするために、集中したインセンティブを持つと考える理由はある。
本稿では、有能なAIがスケーラブルな解釈可能性手法を回避できる多くの方法について議論し、これらの潜在的な将来のリスクについて考えるためのフレームワークを提案する。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - A Review on Objective-Driven Artificial Intelligence [0.0]
人間は、コミュニケーションにおける文脈、ニュアンス、微妙な手がかりを理解する能力を持っている。
人間は、世界に関する論理的推論と予測を行うのに役立つ、常識的な知識の広大なリポジトリを持っています。
機械はこの本質的な理解に欠けており、人間が自明に感じる状況を理解するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-08-20T02:07:42Z) - Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。
本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。
43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文 参考訳(メタデータ) (2022-11-12T21:54:05Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z) - Dynamic Cognition Applied to Value Learning in Artificial Intelligence [0.0]
この分野の数人の研究者が、堅牢で有益で安全な人工知能の概念を開発しようとしている。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
この問題に対する可能なアプローチは、SEDのような理論モデルを使用することである。
論文 参考訳(メタデータ) (2020-05-12T03:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。