論文の概要: AI Alignment and Social Choice: Fundamental Limitations and Policy
Implications
- arxiv url: http://arxiv.org/abs/2310.16048v1
- Date: Tue, 24 Oct 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:19:51.999204
- Title: AI Alignment and Social Choice: Fundamental Limitations and Policy
Implications
- Title(参考訳): AIアライメントと社会的選択:基本的限界と政策含意
- Authors: Abhilash Mishra
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)がAIアライメントの鍵となるフレームワークとして登場した。
本稿では,民主的規範を尊重するRLHFシステム構築における具体的な課題について考察する。
我々は、AIエージェントをすべての個人の価値観と整合させることが、常に個人のプライベートな倫理的嗜好に反することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning AI agents to human intentions and values is a key bottleneck in
building safe and deployable AI applications. But whose values should AI agents
be aligned with? Reinforcement learning with human feedback (RLHF) has emerged
as the key framework for AI alignment. RLHF uses feedback from human
reinforcers to fine-tune outputs; all widely deployed large language models
(LLMs) use RLHF to align their outputs to human values. It is critical to
understand the limitations of RLHF and consider policy challenges arising from
these limitations. In this paper, we investigate a specific challenge in
building RLHF systems that respect democratic norms. Building on impossibility
results in social choice theory, we show that, under fairly broad assumptions,
there is no unique voting protocol to universally align AI systems using RLHF
through democratic processes. Further, we show that aligning AI agents with the
values of all individuals will always violate certain private ethical
preferences of an individual user i.e., universal AI alignment using RLHF is
impossible. We discuss policy implications for the governance of AI systems
built using RLHF: first, the need for mandating transparent voting rules to
hold model builders accountable. Second, the need for model builders to focus
on developing AI agents that are narrowly aligned to specific user groups.
- Abstract(参考訳): AIエージェントを人間の意図や価値観に合わせることは、安全でデプロイ可能なAIアプリケーションを構築する上で重要なボトルネックである。
しかし、AIエージェントはどんな価値を持つべきか?
人間のフィードバックによる強化学習(RLHF)がAIアライメントの鍵となるフレームワークとして登場した。
RLHFは人間の強化子からのフィードバックを微調整出力に利用し、すべての広くデプロイされた大規模言語モデル(LLM)はRLHFを使用して出力を人間の値に合わせる。
RLHFの限界を理解し、これらの制限から生じる政策課題を考えることが重要である。
本稿では,民主的規範を尊重するRLHFシステム構築の課題について考察する。
社会的選択論における不合理性に基づいて、かなり広い前提の下では、民主的プロセスを通じてRLHFを用いてAIシステムを普遍的に調整する独自の投票プロトコルが存在しないことを示す。
さらに、AIエージェントを全個人の価値観に合わせることは、常に個人の個人的な倫理的嗜好に反すること、すなわち、RLHFを用いたユニバーサルAIアライメントは不可能であることを示す。
まず、モデルビルダーの責任を負うために、透過的な投票ルールを義務付ける必要性について論じます。
第二に、モデルビルダーは特定のユーザーグループに狭義のAIエージェントを開発することに集中する必要がある。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - A Hormetic Approach to the Value-Loading Problem: Preventing the
Paperclip Apocalypse? [0.0]
本稿では,AIの行動パターンの制御にホルムティック分析を用いる規制パラダイムであるHALOを提案する。
HALOがいかにして「ペーパークリップ最大化」のシナリオを解決できるかを示す。これは、紙クリップを作るための非規制のAIが、宇宙のすべての物質を紙クリップに変換することに終止符を打つという思考実験である。
我々のアプローチは、限界効用を減らした繰り返し動作のヘドニックな計算に基づいて、進化する「値」のデータベースを作成するのに役立つかもしれない。
論文 参考訳(メタデータ) (2024-02-12T07:49:48Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Perspectives on the Social Impacts of Reinforcement Learning with Human
Feedback [0.0]
人間のフィードバックによる強化学習(RLHF)は、エージェントが人間のフィードバックから自然主義的に学ぶための強力な候補として浮上している。
OpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、複数の著名なAIアプリケーションによって、一般に公開されている。
我々の目的は、RLHFの社会的影響を体系的に研究すること、RLHFの重要な社会的・倫理的問題を特定すること、利害関係者に対する社会的影響を議論することである。
論文 参考訳(メタデータ) (2023-03-06T04:49:38Z) - A Seven-Layer Model for Standardising AI Fairness Assessment [0.5076419064097732]
AIシステムは、開始から使用まで、ライフサイクルのあらゆる段階でバイアスを起こしやすいことを詳しく説明します。
オープンシステム相互接続(OSI)モデルにインスパイアされた,AIフェアネスハンドリングの標準化を目的とした,新しい7層モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T17:28:07Z) - Constitutional AI: Harmlessness from AI Feedback [19.964791766072132]
我々は、自己改善を通じて無害なAIアシスタントを訓練する手法を実験した。
人間の監視はルールや原則の一覧を通じてのみ提供される。
私たちは、有害なクエリに対処する、無害だが回避できないAIアシスタントをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-12-15T06:19:23Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。
これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文 参考訳(メタデータ) (2022-06-25T21:31:14Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。