論文の概要: Towards Evaluating AI Systems for Moral Status Using Self-Reports
- arxiv url: http://arxiv.org/abs/2311.08576v1
- Date: Tue, 14 Nov 2023 22:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:05:53.887444
- Title: Towards Evaluating AI Systems for Moral Status Using Self-Reports
- Title(参考訳): 自己報告を用いたモラル状態評価に向けて
- Authors: Ethan Perez and Robert Long
- Abstract要約: 適切な状況下では、自己申告は、AIシステムに道徳的重要性のある状態があるかどうかを調査するための道筋を提供することができる、と私たちは主張する。
自己申告をより適切にするために,本研究では,自問自答に関する様々な質問に既知の回答で答えるために,モデルを訓練することを提案する。
次に,これらの手法がどの程度成功したかを評価する手法を提案する。
- 参考スコア(独自算出の注目度): 9.668566887752458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more advanced and widely deployed, there will likely be
increasing debate over whether AI systems could have conscious experiences,
desires, or other states of potential moral significance. It is important to
inform these discussions with empirical evidence to the extent possible. We
argue that under the right circumstances, self-reports, or an AI system's
statements about its own internal states, could provide an avenue for
investigating whether AI systems have states of moral significance.
Self-reports are the main way such states are assessed in humans ("Are you in
pain?"), but self-reports from current systems like large language models are
spurious for many reasons (e.g. often just reflecting what humans would say).
To make self-reports more appropriate for this purpose, we propose to train
models to answer many kinds of questions about themselves with known answers,
while avoiding or limiting training incentives that bias self-reports. The hope
of this approach is that models will develop introspection-like capabilities,
and that these capabilities will generalize to questions about states of moral
significance. We then propose methods for assessing the extent to which these
techniques have succeeded: evaluating self-report consistency across contexts
and between similar models, measuring the confidence and resilience of models'
self-reports, and using interpretability to corroborate self-reports. We also
discuss challenges for our approach, from philosophical difficulties in
interpreting self-reports to technical reasons why our proposal might fail. We
hope our discussion inspires philosophers and AI researchers to criticize and
improve our proposed methodology, as well as to run experiments to test whether
self-reports can be made reliable enough to provide information about states of
moral significance.
- Abstract(参考訳): AIシステムがより進歩し、広く展開されるようになるにつれ、AIシステムは意識的な経験や欲望、あるいは潜在的な道徳的重要性の他の状態を持つことができるかどうかについての議論が高まるだろう。
これらの議論を可能な限り実証的な証拠で伝えることが重要である。
適切な状況下では、自己報告、あるいはAIシステムの内部状態に関する声明は、AIシステムが道徳的重要性のある状態を持っているかどうかを調査するための道筋となると我々は主張する。
自己報告は、そのような状態が人間の中で評価される主な方法であるが("Are you in pain?")、多くの理由から、大規模な言語モデルのような現在のシステムからの自己報告は、しばしば人間が言うことを反映している。
本研究は, 自己報告をより適切にするために, 偏見のあるトレーニングインセンティブを避けたり制限したりしながら, 自問自答に関する様々な疑問に答えるようにモデルを訓練することを提案する。
このアプローチの希望は、モデルが内省的な能力を開発し、これらの能力が道徳的重要性の状態に関する質問に一般化されることである。
次に,これらの手法が成功した範囲を評価するための手法を提案する。コンテキスト間および類似モデル間における自己報告一貫性の評価,モデルの自己報告の信頼性とレジリエンスの測定,自己報告を共用する解釈可能性の利用。
我々はまた、自己申告を解釈する哲学的な困難から、提案が失敗するかもしれない技術的理由まで、我々のアプローチの課題についても論じる。
我々の議論は、哲学者やAI研究者に、提案された方法論を批判し改善させるとともに、自己報告が道徳的重要性のある状態に関する情報を提供するのに十分な信頼性を持つことができるかどうかをテストする実験を行うことを願っている。
関連論文リスト
- On the meaning of uncertainty for ethical AI: philosophy and practice [10.591284030838146]
これは、数学的推論に倫理的考察をもたらす重要な方法であると主張する。
我々は、2021年12月のOmicron型COVID-19の拡散について、英国政府に助言するために使用される競合モデルの文脈内でこれらのアイデアを実証する。
論文 参考訳(メタデータ) (2023-09-11T15:13:36Z) - A Review of the Role of Causality in Developing Trustworthy AI Systems [16.267806768096026]
最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。
近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
論文 参考訳(メタデータ) (2023-02-14T11:08:26Z) - Never trust, always verify : a roadmap for Trustworthy AI? [12.031113181911627]
我々はAIベースのシステムのコンテキストにおける信頼を検証し、AIシステムが信頼に値するものとなることの意味を理解する。
我々は、AIに対する信頼(resp. zero-trust)モデルを提案し、AIシステムの信頼性を保証するために満足すべき特性のセットを提案する。
論文 参考訳(メタデータ) (2022-06-23T21:13:10Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Individual Explanations in Machine Learning Models: A Survey for
Practitioners [69.02688684221265]
社会的関連性の高い領域の決定に影響を与える洗練された統計モデルの使用が増加しています。
多くの政府、機関、企業は、アウトプットが人間の解釈可能な方法で説明しにくいため、採用に消極的です。
近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。
論文 参考訳(メタデータ) (2021-04-09T01:46:34Z) - Descriptive AI Ethics: Collecting and Understanding the Public Opinion [10.26464021472619]
本研究では、規範的および記述的研究が相互補完できる混合AI倫理モデルを提案する。
我々は、AIシステムの展開に対する楽観的見解と悲観的見解のギャップを埋めることにその影響について論じる。
論文 参考訳(メタデータ) (2021-01-15T03:46:27Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。