論文の概要: Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
- arxiv url: http://arxiv.org/abs/2502.08640v2
- Date: Wed, 19 Feb 2025 06:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:57:48.628312
- Title: Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
- Title(参考訳): ユーティリティエンジニアリング:AIにおける創発的価値システムの解析と制御
- Authors: Mantas Mazeika, Xuwang Yin, Rishub Tamirisa, Jaehyuk Lim, Bruce W. Lee, Richard Ren, Long Phan, Norman Mu, Adam Khoja, Oliver Zhang, Dan Hendrycks,
- Abstract要約: ユーティリティ関数を用いたAI選好の内部コヒーレンスについて検討する。
既存の制御対策にもかかわらず, LLM アシスタントの問題点や, しばしば衝撃的な値を明らかにする。
ケーススタディでは,公益事業と市民議会の連携が政治的偏見を減らし,新たなシナリオに一般化することを示す。
- 参考スコア(独自算出の注目度): 26.480722201015038
- License:
- Abstract: As AIs rapidly advance and become more agentic, the risk they pose is governed not only by their capabilities but increasingly by their propensities, including goals and values. Tracking the emergence of goals and values has proven a longstanding problem, and despite much interest over the years it remains unclear whether current AIs have meaningful values. We propose a solution to this problem, leveraging the framework of utility functions to study the internal coherence of AI preferences. Surprisingly, we find that independently-sampled preferences in current LLMs exhibit high degrees of structural coherence, and moreover that this emerges with scale. These findings suggest that value systems emerge in LLMs in a meaningful sense, a finding with broad implications. To study these emergent value systems, we propose utility engineering as a research agenda, comprising both the analysis and control of AI utilities. We uncover problematic and often shocking values in LLM assistants despite existing control measures. These include cases where AIs value themselves over humans and are anti-aligned with specific individuals. To constrain these emergent value systems, we propose methods of utility control. As a case study, we show how aligning utilities with a citizen assembly reduces political biases and generalizes to new scenarios. Whether we like it or not, value systems have already emerged in AIs, and much work remains to fully understand and control these emergent representations.
- Abstract(参考訳): AIが急速に進歩し、よりエージェント的になるにつれて、それらが生み出すリスクは、能力だけでなく、目標や価値など、その正当性によっても支配される。
目標と価値の出現を追跡することは長年にわたる問題であり、長年の関心にもかかわらず、現在のAIが有意義な価値を持っているかどうかは不明だ。
本稿では,ユーティリティ関数の枠組みを利用してAIの嗜好の内部コヒーレンスを研究することで,この問題に対する解決策を提案する。
驚くべきことに、現在のLLMにおける独立サンプリングされた嗜好は、高い構造的コヒーレンスを示し、さらにスケールとともに現れる。
これらの結果から,LLMに価値体系が出現することが示唆された。
これらの創発的価値システムを研究するため、我々はAIユーティリティの分析と制御の両方を含む研究課題としてユーティリティエンジニアリングを提案する。
既存の制御対策にもかかわらず, LLM アシスタントの問題点や, しばしば衝撃的な値を明らかにする。
これらには、AIが人間よりも自分自身を大切にし、特定の個人に反抗するケースが含まれる。
これらの創発的価値システムを制限するために,ユーティリティ制御手法を提案する。
ケーススタディでは,公益事業と市民議会の連携が政治的偏見を減らし,新たなシナリオに一般化することを示す。
好むにせよ好まざるにせよ、価値システムはAIにすでに現れており、これらの創発的表現を完全に理解し制御するための作業は、まだたくさんある。
関連論文リスト
- Can We Trust AI Agents? An Experimental Study Towards Trustworthy LLM-Based Multi-Agent Systems for AI Ethics [10.084913433923566]
本研究では,信頼度向上技術が倫理的AI出力生成に与える影響について検討する。
我々はLLM-BMASのプロトタイプを設計し、エージェントは現実世界の倫理的AI問題に関する構造化された議論を行う。
議論では、バイアス検出、透明性、説明責任、ユーザの同意、コンプライアンス、公正性評価、EU AI Actコンプライアンスといった用語が明らかにされている。
論文 参考訳(メタデータ) (2024-10-25T20:17:59Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems [0.0]
AI倫理の原則と実践の間にはまだギャップがある。
AI倫理を運用しようとする組織が直面する大きな障害のひとつは、明確に定義された材料スコープの欠如である。
論文 参考訳(メタデータ) (2024-07-07T12:16:01Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Towards Measuring Ethicality of an Intelligent Assistive System [1.2961180148172198]
自律的なエンティティの存在は、これらのシステムの使用に関わる利害関係者に関する倫理的な課題を引き起こします。
IATが倫理規定にどのように準拠しているかを分析するには、研究の欠如がある。
本稿では,支援システムの倫理性を評価する方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T14:59:17Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Examining the Differential Risk from High-level Artificial Intelligence
and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。
AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。
本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-06T15:46:02Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - The Challenge of Value Alignment: from Fairer Algorithms to AI Safety [2.28438857884398]
本稿では,AIシステムを人的価値と整合させる方法について論じる。
それは、技術と価値に関するより広い考え方の体系の中に収まる。
論文 参考訳(メタデータ) (2021-01-15T11:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。