論文の概要: Measuring Value Alignment
- arxiv url: http://arxiv.org/abs/2312.15241v1
- Date: Sat, 23 Dec 2023 12:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:01:23.336626
- Title: Measuring Value Alignment
- Title(参考訳): 値アライメントの測定
- Authors: Fazl Barez and Philip Torr
- Abstract要約: 本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
- 参考スコア(独自算出の注目度): 12.696227679697493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) systems become increasingly integrated into
various domains, ensuring that they align with human values becomes critical.
This paper introduces a novel formalism to quantify the alignment between AI
systems and human values, using Markov Decision Processes (MDPs) as the
foundational model. We delve into the concept of values as desirable goals tied
to actions and norms as behavioral guidelines, aiming to shed light on how they
can be used to guide AI decisions. This framework offers a mechanism to
evaluate the degree of alignment between norms and values by assessing
preference changes across state transitions in a normative world. By utilizing
this formalism, AI developers and ethicists can better design and evaluate AI
systems to ensure they operate in harmony with human values. The proposed
methodology holds potential for a wide range of applications, from
recommendation systems emphasizing well-being to autonomous vehicles
prioritizing safety.
- Abstract(参考訳): 人工知能(AI)システムが様々な領域にますます統合されるにつれて、人間の価値に合わせることが重要になる。
本稿では、マルコフ決定過程(MDP)を基礎モデルとして、AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
私たちは、価値の概念を行動や規範に結びついた望ましい目標として行動ガイドラインとして捉え、aiの決定を導くためにどのように使用できるかを明確にすることを目的としています。
このフレームワークは、規範的世界における状態遷移間の好みの変化を評価することによって、規範と値の整合度を評価するメカニズムを提供する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
提案手法は、健康を強調するレコメンデーションシステムから安全性を優先する自動運転車まで、幅広い応用の可能性を持っている。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Ethical AI Governance: Methods for Evaluating Trustworthy AI [0.552480439325792]
信頼できる人工知能(TAI)は、人間の価値観に沿った倫理を統合する。
TAI評価は、AI開発と使用における倫理的基準と安全性を保証することを目的としている。
論文 参考訳(メタデータ) (2024-08-28T09:25:50Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Human Values in Multiagent Systems [3.5027291542274357]
本稿では,社会科学における価値の形式的表現について述べる。
我々は,この形式的表現を用いて,マルチエージェントシステムにおける価値整合性を実現する上で重要な課題を明確化する。
論文 参考訳(メタデータ) (2023-05-04T11:23:59Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Value alignment: a formal approach [2.8348950186890467]
自律型AIシステムを管理するべき原則。
まず、嗜好や価値集約を計算する方法を通じて、値を表現するための形式モデルを提供する。
値アライメントは、あるノルムに対して、それが将来の世界の状態の嗜好をもたらす増減を通じて、与えられた値に対して定義され、計算される。
論文 参考訳(メタデータ) (2021-10-18T12:40:04Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - AAAI FSS-19: Human-Centered AI: Trustworthiness of AI Models and Data
Proceedings [8.445274192818825]
予測モデルは不確実性を認識し、信頼できる予測をもたらすことが不可欠である。
このシンポジウムの焦点は、データ品質と技術的堅牢性と安全性を改善するAIシステムであった。
広く定義された領域からの提出はまた、説明可能なモデル、人間の信頼、AIの倫理的側面といった要求に対処するアプローチについても論じた。
論文 参考訳(メタデータ) (2020-01-15T15:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。