論文の概要: Positive Alignment: Artificial Intelligence for Human Flourishing
- arxiv url: http://arxiv.org/abs/2605.10310v1
- Date: Mon, 11 May 2026 10:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.718821
- Title: Positive Alignment: Artificial Intelligence for Human Flourishing
- Title(参考訳): ポジティブアライメント:人間の浮き彫りのための人工知能
- Authors: Ruben Laukkonen, Seb Krier, Chloé Bakalar, Shamil Chandaria, Morten Kringelbach, Adam Elwood, Daniel Ford, Fernando Rosas, Maty Bohacek, Matija Franklin, Nenad Tomašev, Stephanie Chan, Verena Rieser, Roma Patel, Michael Levin, Arun Rao,
- Abstract要約: 既存のアライメント研究は、安全と害の防止に関する懸念に支配されている。
ポジティブアライメント(Positive Alignment)とは、人間と生態の繁栄を積極的に支援するAIシステムの開発である。
- 参考スコア(独自算出の注目度): 36.70635562721606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing alignment research is dominated by concerns about safety and preventing harm: safeguards, controllability, and compliance. This paradigm of alignment parallels early psychology's focus on mental illness: necessary but incomplete. What we call Positive Alignment is the development of AI systems that (i) actively support human and ecological flourishing in a pluralistic, polycentric, context-sensitive, and user-authored way while (ii) remaining safe and cooperative. It is a distinct and necessary agenda within AI alignment research. We argue that several existing failures of alignment (e.g., engagement hacking, loss of human autonomy, failures in truth-seeking, low epistemic humility, error correction, lack of diverse viewpoints, and being primarily reactive rather than proactive) may be better addressed through positive alignment, including cultivating virtues and maximizing human flourishing. We highlight a range of challenges, open questions, and technical directions (e.g., data filtering and upsampling, pre- and post-training, evaluations, collaborative value collection) for different phases of the LLM and agents lifecycle. We end with design principles for promoting disagreement and decentralization through contextual grounding, community customization, continual adaptation, and polycentric governance; that is, many legitimate centers of oversight rather than one institutional or moral chokepoint.
- Abstract(参考訳): 既存のアライメント研究は、安全と害の防止に関する懸念、すなわち保護、管理可能性、コンプライアンスに支配されている。
このアライメントのパラダイムは、初期の心理学が精神疾患(必要だが不完全)に焦点を合わせるのと平行している。
ポジティブアライメント(Positive Alignment)とは、AIシステムの開発である。
(i)多元的・多元的・文脈に敏感でユーザ権限のある方法での人的・生態的繁栄を積極的に支援する
(二)安全で協力的なままである。
これはAIアライメント研究において、明確にかつ必要な議題である。
既存のアライメントの失敗(例えば、エンゲージメントハッキング、人間の自律性の喪失、真理探究における失敗、低い認識の謙虚さ、エラー修正、多様な視点の欠如、そして主に積極的な視点の欠如)は、人間の繁栄を最大化することを含むポジティブなアライメントによってよりうまく対処できる、と我々は主張する。
LLMとエージェントライフサイクルの異なるフェーズに対して、さまざまな課題、オープンな質問、技術的な方向性(例えば、データフィルタリングとアップサンプリング、事前および後トレーニング、評価、協調価値収集など)を強調します。
我々は、文脈的基盤化、コミュニティのカスタマイズ、継続的な適応、多中心的なガバナンスを通じて、不一致と分散化を促進する設計原則、すなわち、1つの制度的または道徳的なチョークポイントよりも多くの正当な監視の中心を設計する。
関連論文リスト
- Super Co-alignment of Human and AI for Sustainable Symbiotic Society [22.005069513324777]
持続可能な共生社会の価値観は、人間と生きたAIによって共に形成されるべきである。
本稿では,外部監視と本質的プロアクティブアライメントを統合したフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-24T09:53:49Z) - Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.24208064228573]
スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。
この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文 参考訳(メタデータ) (2025-03-08T04:10:11Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Position: Towards Bidirectional Human-AI Alignment [109.57781720848669]
我々は、人間とAIの双方向的・動的関係を説明するために、研究コミュニティは「調整」を明確に定義し、批判的に反映すべきであると主張する。
このフレームワークは、AIと人間の価値を整合させる従来の取り組みを取り入れているだけでなく、人間とAIを整合させるという、重要で未解明の次元も導入しています。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。