論文の概要: PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment
- arxiv url: http://arxiv.org/abs/2503.04740v1
- Date: Wed, 05 Feb 2025 02:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 11:16:23.066692
- Title: PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment
- Title(参考訳): PRISM:AIアライメントのための多視点フレームワークとしての統合合成とメディエーションのためのパースペクティブ推論
- Authors: Anthony Diamond,
- Abstract要約: Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we propose Perspective Reasoning for Integrated Synthesis and Mediation (PRISM), a multiple-perspective framework for addressing persistent challenges in AI alignment such as conflicting human values and specification gaming. Grounded in cognitive science and moral psychology, PRISM organizes moral concerns into seven "basis worldviews", each hypothesized to capture a distinct dimension of human moral cognition, ranging from survival-focused reflexes through higher-order integrative perspectives. It then applies a Pareto-inspired optimization scheme to reconcile competing priorities without reducing them to a single metric. Under the assumption of reliable context validation for robust use, the framework follows a structured workflow that elicits viewpoint-specific responses, synthesizes them into a balanced outcome, and mediates remaining conflicts in a transparent and iterative manner. By referencing layered approaches to moral cognition from cognitive science, moral psychology, and neuroscience, PRISM clarifies how different moral drives interact and systematically documents and mediates ethical tradeoffs. We illustrate its efficacy through real outputs produced by a working prototype, applying PRISM to classic alignment problems in domains such as public health policy, workplace automation, and education. By anchoring AI deliberation in these human vantage points, PRISM aims to bound interpretive leaps that might otherwise drift into non-human or machine-centric territory. We briefly outline future directions, including real-world deployments and formal verifications, while maintaining the core focus on multi-perspective synthesis and conflict mediation.
- Abstract(参考訳): 本研究では、人間の価値観の対立や仕様ゲームといったAIアライメントにおける永続的な課題に対処する多視点的フレームワークである、統合合成・メディエーションのためのパースペクティブ・リ推論(PRISM)を提案する。
認知科学と道徳心理学を基礎として、PRISMは道徳的懸念を7つの「基本世界観」に分類し、それぞれが人間の道徳的認知の異なる次元を捉えていると仮説を立てている。
その後、パレートにインスパイアされた最適化スキームを適用して、競合する優先順位を1つの計量に減らさずに調整する。
堅牢な使用のための信頼性の高いコンテキスト検証の仮定の下で、このフレームワークは、視点固有の応答を導き、それらをバランスの取れた結果に合成し、透明で反復的な方法で残ったコンフリクトを仲介する構造化されたワークフローに従う。
認知科学、道徳心理学、神経科学からの道徳認知への階層的なアプローチを参照することにより、PRISMは異なる道徳ドライブがどのように相互作用し、体系的に文書化され、倫理的トレードオフを仲介するかを明確にする。
公共衛生政策や職場の自動化,教育といった分野における古典的なアライメント問題にPRISMを適用し,作業プロトタイプの実際のアウトプットを通じてその有効性を説明する。
PRISMの狙いは、人間以外の領域や機械中心の領域に漂着するかもしれない解釈的跳躍を束縛することにある。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
関連論文リスト
- Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles [24.448749292993234]
Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
論文 参考訳(メタデータ) (2025-02-09T22:41:24Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment [0.0]
我々は,人的目標と価値を人工システムで従うことができるような方法で表現する上での課題に,不必要な敵意を伴わない「調整」の問題を見出した。
この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。
論文 参考訳(メタデータ) (2024-06-16T18:37:31Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Predictable Artificial Intelligence [77.1127726638209]
本稿では予測可能なAIのアイデアと課題を紹介する。
それは、現在および将来のAIエコシステムの重要な妥当性指標を予測できる方法を探る。
予測可能性を達成することは、AIエコシステムの信頼、責任、コントロール、アライメント、安全性を促進するために不可欠である、と私たちは主張する。
論文 参考訳(メタデータ) (2023-10-09T21:36:21Z) - Factoring the Matrix of Domination: A Critical Review and Reimagination
of Intersectionality in AI Fairness [55.037030060643126]
間欠性は、社会的不平等の持続性を調べるための重要な枠組みである。
我々は、公平性を効果的に運用するために、交差性を分析的枠組みとして採用することが重要であると論じる。
論文 参考訳(メタデータ) (2023-03-16T21:02:09Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。