論文の概要: Beyond Preferences in AI Alignment
- arxiv url: http://arxiv.org/abs/2408.16984v2
- Date: Wed, 6 Nov 2024 20:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 19:50:01.831023
- Title: Beyond Preferences in AI Alignment
- Title(参考訳): AIアライメントにおける嗜好を超えて
- Authors: Tan Zhi-Xuan, Micah Carroll, Matija Franklin, Hal Ashton,
- Abstract要約: 我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
- 参考スコア(独自算出の注目度): 15.878773061188516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant practice of AI alignment assumes (1) that preferences are an adequate representation of human values, (2) that human rationality can be understood in terms of maximizing the satisfaction of preferences, and (3) that AI systems should be aligned with the preferences of one or more humans to ensure that they behave safely and in accordance with our values. Whether implicitly followed or explicitly endorsed, these commitments constitute what we term a preferentist approach to AI alignment. In this paper, we characterize and challenge the preferentist approach, describing conceptual and technical alternatives that are ripe for further research. We first survey the limits of rational choice theory as a descriptive model, explaining how preferences fail to capture the thick semantic content of human values, and how utility representations neglect the possible incommensurability of those values. We then critique the normativity of expected utility theory (EUT) for humans and AI, drawing upon arguments showing how rational agents need not comply with EUT, while highlighting how EUT is silent on which preferences are normatively acceptable. Finally, we argue that these limitations motivate a reframing of the targets of AI alignment: Instead of alignment with the preferences of a human user, developer, or humanity-writ-large, AI systems should be aligned with normative standards appropriate to their social roles, such as the role of a general-purpose assistant. Furthermore, these standards should be negotiated and agreed upon by all relevant stakeholders. On this alternative conception of alignment, a multiplicity of AI systems will be able to serve diverse ends, aligned with normative standards that promote mutual benefit and limit harm despite our plural and divergent values.
- Abstract(参考訳): AIアライメントの主流の実践は、(1)嗜好が人間の価値観の適切な表現であること、(2)人間の合理性は嗜好の満足度を最大化すること、(3)AIシステムは1人以上の人の嗜好と整合して、我々の価値観に従って安全に行動することを保証するべきであることを前提としている。
暗黙的に従うか、明示的に支持されるかにかかわらず、これらのコミットメントは、私たちがAIアライメントに対する優先的なアプローチと呼ぶものを構成する。
本稿では,さらなる研究に欠かせない概念的・技術的選択肢を記述し,優先主義的アプローチを特徴付け,挑戦する。
本稿はまず,有理選択理論の限界を記述的モデルとして調査し,人的価値の厚い意味的内容の獲得に優先権が如何に失敗するか,実用的表現がそれらの価値の不可避性を如何に無視するかを説明する。
次に、我々は、人間とAIに対する期待されたユーティリティ理論(EUT)の規範性を批判し、合理的エージェントがEUTに準拠すべきでないことの議論を引き合いに出し、EUTがどの規範的に受け入れられるかについて沈黙しているかを強調した。
最後に、これらの制限がAIアライメントの目標の再フレーミングを動機付けていると論じる: 人間のユーザ、開発者、あるいは人間性に富んだ大きな好みに合わせる代わりに、AIシステムは、汎用アシスタントの役割など、彼らの社会的役割に適する規範的な標準に適合すべきである。
さらに、これらの標準は、関連するすべてのステークホルダーによって交渉され、合意されるべきです。
この代替的なアライメントの概念では、AIシステムの多種多様さは、複数の値と分岐した値に関わらず、相互利益を促進し、害を制限する規範的な標準と整合して、多様な目的を達成することができる。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment [0.0]
我々は,人的目標と価値を人工システムで従うことができるような方法で表現する上での課題に,不必要な敵意を伴わない「調整」の問題を見出した。
この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。
論文 参考訳(メタデータ) (2024-06-16T18:37:31Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Tensions Between the Proxies of Human Values in AI [20.303537771118048]
AIコミュニティは、これらの柱の特定の定式化を選択するすべての結果を検討する必要がある、と私たちは主張する。
我々は,後者のフレームワークに関する社会工学的な研究をめざしているが,実際に実施するためには,より広範な努力が必要である。
論文 参考訳(メタデータ) (2022-12-14T21:13:48Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Joint Optimization of AI Fairness and Utility: A Human-Centered Approach [45.04980664450894]
我々は、異なる公正基準を同時に満たすことができないことがあるため、これらの目標間のトレードオフをどう行うかという人間の政策立案者の好みに固執することが鍵であると主張している。
このような嗜好を抽出し、これらの嗜好に応じてAIモデルを最適化するためのフレームワークといくつかの模範的手法を提案する。
論文 参考訳(メタデータ) (2020-02-05T03:31:48Z) - Artificial Intelligence, Values and Alignment [2.28438857884398]
AIアライメント問題の規範的および技術的側面は相互に関連している。
アライメントの目標を明確にすることが重要です。
理論家にとっての中心的な課題は、AIの「真の」道徳原則を特定することではない。
論文 参考訳(メタデータ) (2020-01-13T10:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。