論文の概要: Full-Stack Alignment: Co-Aligning AI and Institutions with Thick Models of Value
- arxiv url: http://arxiv.org/abs/2512.03399v1
- Date: Wed, 03 Dec 2025 03:11:32 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:58:09.263967
- Title: Full-Stack Alignment: Co-Aligning AI and Institutions with Thick Models of Value
- Title(参考訳): フルスタックアライメント:AIと価値の太いモデルを持つ機関の併用
- Authors: Joe Edelman, Tan Zhi-Xuan, Ryan Lowe, Oliver Klingefjord, Vincent Wang-Mascianica, Matija Franklin, Ryan Othniel Kearns, Ellie Hain, Atrisha Sarkar, Michiel Bakker, Fazl Barez, David Duvenaud, Jakob Foerster, Iason Gabriel, Joseph Gubbels, Bryce Goodman, Andreas Haupt, Jobst Heitzig, Julian Jara-Ettinger, Atoosa Kasirzadeh, James Ravi Kirkpatrick, Andrew Koh, W. Bradley Knox, Philipp Koralus, Joel Lehman, Sydney Levine, Samuele Marro, Manon Revel, Toby Shorin, Morgan Sutherland, Michael Henry Tessler, Ivan Vendrov, James Wilken-Smith,
- Abstract要約: ユーティリティ関数や嗜好順序、構造化されていないテキストといった値を表現するための現在のアプローチは、これらの問題や他の問題に効果的に対処するのに苦労している、と我々は主張する。
我々は価値の厚いモデルを提案する。
これらの構造は、値とノルムの表現方法に似ており、システムは永続的な値と艦隊の好みを区別することができる。
- 参考スコア(独自算出の注目度): 23.754729147843914
- License:
- Abstract: Beneficial societal outcomes cannot be guaranteed by aligning individual AI systems with the intentions of their operators or users. Even an AI system that is perfectly aligned to the intentions of its operating organization can lead to bad outcomes if the goals of that organization are misaligned with those of other institutions and individuals. For this reason, we need full-stack alignment, the concurrent alignment of AI systems and the institutions that shape them with what people value. This can be done without imposing a particular vision of individual or collective flourishing. We argue that current approaches for representing values, such as utility functions, preference orderings, or unstructured text, struggle to address these and other issues effectively. They struggle to distinguish values from other signals, to support principled normative reasoning, and to model collective goods. We propose thick models of value will be needed. These structure the way values and norms are represented, enabling systems to distinguish enduring values from fleeting preferences, to model the social embedding of individual choices, and to reason normatively, applying values in new domains. We demonstrate this approach in five areas: AI value stewardship, normatively competent agents, win-win negotiation systems, meaning-preserving economic mechanisms, and democratic regulatory institutions.
- Abstract(参考訳): 個々のAIシステムをオペレータやユーザの意図に合わせることで、社会的利益を保証できない。
運用組織の意図に完全に整合したAIシステムでさえ、その組織の目標が他の機関や個人の目標と不一致であれば、悪い結果につながる可能性がある。
そのためには、フルスタックのアライメント、AIシステムの同時アライメント、人々の価値とそれらを形成する機関が必要です。
これは個人や集団の繁栄という特定のビジョンを示さなくても達成できる。
ユーティリティ関数や嗜好順序、構造化されていないテキストといった値を表現するための現在のアプローチは、これらの問題や他の問題に効果的に対処するのに苦労している、と我々は主張する。
彼らは他の信号と価値を区別し、原則的規範的推論をサポートし、集合的商品をモデル化するのに苦労した。
我々は価値の厚いモデルを提案する。
これらの構造は、値とノルムの表現方法を構築し、システムは永続的な値と艦隊の選好を区別し、個々の選択の社会的埋め込みをモデル化し、規範的に新しいドメインに値を適用することができる。
このアプローチは、AI価値管理、規範的に有能なエージェント、勝者交渉システム、意味保存経済メカニズム、民主的な規制機関の5つの領域で実証されている。
関連論文リスト
- Learning the Value Systems of Societies from Preferences [1.3836987591220347]
人間の価値観と様々な利害関係者の価値観に基づく嗜好を持つAIシステムを調整することは、倫理的AIにおいて鍵となる。
価値認識型AIシステムでは、意思決定は個々の値の明示的な計算表現に基づいて行われる。
本稿では,社会の価値体系を学習する上での課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T11:25:55Z) - Infrastructuring Contestability: A Framework for Community-Defined AI Value Pluralism [0.0]
AI駆動システムの普及は、人間とコンピュータのインタラクションとコンピュータが支援する協調作業に課題をもたらす。
集中型のトップダウン定義に依存している現在の価値アライメントへのアプローチには、意味のある競争性のためのメカニズムが欠如している。
本稿では,このギャップに対処する社会技術フレームワークであるCommunity-Defined AI Value Pluralismを紹介する。
論文 参考訳(メタデータ) (2025-07-07T16:45:50Z) - Resource Rational Contractualism Should Guide AI Alignment [69.07915246220985]
契約主義的アライメントは、多様な利害関係者が支持する合意の中で決定を下すことを提案する。
我々は、AIシステムが合理的な当事者が形成する合意を近似する枠組みであるリソース・リアリズムを提案する。
RRC対応エージェントは、効率的に機能するだけでなく、変化する人間の社会世界への適応と解釈を動的に行うことができる。
論文 参考訳(メタデータ) (2025-06-20T18:57:13Z) - ValueCompass: A Framework for Measuring Contextual Value Alignment Between Human and LLMs [16.711615737109977]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
実世界の4つのシナリオにまたがって、人間と大規模言語モデル(LLM)の価値アライメントを測定するためにバリューを適用します。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Towards Responsible AI in Banking: Addressing Bias for Fair
Decision-Making [69.44075077934914]
責任AI(Responsible AI)は、企業文化の発展におけるバイアスに対処する重要な性質を強調している。
この論文は、バイアスを理解すること、バイアスを緩和すること、バイアスを説明することの3つの基本的な柱に基づいて構成されている。
オープンソースの原則に従って、アクセス可能なPythonパッケージとして、Bias On DemandとFairViewをリリースしました。
論文 参考訳(メタデータ) (2024-01-13T14:07:09Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。