論文の概要: Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society
- arxiv url: http://arxiv.org/abs/2504.17404v2
- Date: Fri, 25 Apr 2025 15:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.320541
- Title: Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society
- Title(参考訳): スーパーアライメントの再定義:弱めからストロングアライメントから人間とAIの共アライメント、持続可能な共生社会へ
- Authors: Yi Zeng, Feifei Zhao, Yuwei Wang, Enmeng Lu, Yaodong Yang, Lei Wang, Chao Liu, Yitao Liang, Dongcheng Zhao, Bing Han, Haibo Tong, Yao Liang, Dongqi Liang, Kang Sun, Boyuan Chen, Jinyu Fan,
- Abstract要約: スーパーアライメントは、AIシステムが人間よりもはるかに賢く、人間の(互換性のある)意図と価値観に一致し続けることを保証します。
既存の拡張性のある監視法と弱強一般化法は、AISに面した場合、実質的に不可能で不十分であることを示す可能性がある。
外部監視と本質的なプロアクティブアライメントを統合するフレームワークを強調します。
- 参考スコア(独自算出の注目度): 22.005069513324777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) systems are becoming increasingly powerful and autonomous, and may progress to surpass human intelligence levels, namely Artificial Superintelligence (ASI). During the progression from AI to ASI, it may exceed human control, violate human values, and even lead to irreversible catastrophic consequences in extreme cases. This gives rise to a pressing issue that needs to be addressed: superalignment, ensuring that AI systems much smarter than humans, remain aligned with human (compatible) intentions and values. Existing scalable oversight and weak-to-strong generalization methods may prove substantially infeasible and inadequate when facing ASI. We must explore safer and more pluralistic frameworks and approaches for superalignment. In this paper, we redefine superalignment as the human-AI co-alignment towards a sustainable symbiotic society, and highlight a framework that integrates external oversight and intrinsic proactive alignment. External oversight superalignment should be grounded in human-centered ultimate decision, supplemented by interpretable automated evaluation and correction, to achieve continuous alignment with humanity's evolving values. Intrinsic proactive superalignment is rooted in a profound understanding of the Self, others, and society, integrating self-awareness, self-reflection, and empathy to spontaneously infer human intentions, distinguishing good from evil and proactively considering human well-being, ultimately attaining human-AI co-alignment through iterative interaction. The integration of externally-driven oversight with intrinsically-driven proactive alignment empowers sustainable symbiotic societies through human-AI co-alignment, paving the way for achieving safe and beneficial AGI and ASI for good, for human, and for a symbiotic ecology.
- Abstract(参考訳): 人工知能(AI)システムはますます強力で自律的になりつつあり、人間の知能レベル、すなわち人工超知能(ASI)を超えつつある。
AIからAIへの進化の間、それは人間のコントロールを超え、人間の価値を侵害し、極端なケースでは不可逆的な破滅的な結果をもたらすかもしれない。
スーパーアライメント — AIシステムが人間よりもはるかに賢く、人間の(互換性のある)意図と価値観に一致し続けることを保証する。
既存の拡張性のある監視法と弱強一般化法は、AISに面した場合、実質的に不可能で不十分であることを示す可能性がある。
我々は、より安全で多元的なフレームワークとスーパーアライメントのためのアプローチを探さなければならない。
本稿では,持続可能な共生社会に向けた人間とAIの連携としてスーパーアライメントを再定義し,外部の監視と本質的なプロアクティブアライメントを統合する枠組みを強調する。
外部監視のスーパーアライメントは、人類の進化する価値との連続的な整合を達成するために、解釈可能な自動評価と修正によって補う、人間中心の最終的な決定に基礎を置くべきである。
自己、他者、社会の深い理解に根ざし、自己認識、自己反射、共感を統合して、自然に人間の意図を推測し、善と悪を区別し、人間の幸福を積極的に考慮し、究極的には反復的相互作用を通じて人間とAIの協調関係を得る。
内在的に駆動されるプロアクティブアライメントと外部主導の監視の統合は、人間とAIの協調を通じて持続可能な共生社会を活性化し、安全で有益なAGIおよびAISを善、人、共生生態学のために達成する道を開く。
関連論文リスト
- Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.24208064228573]
スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。
この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文 参考訳(メタデータ) (2025-03-08T04:10:11Z) - Why human-AI relationships need socioaffective alignment [16.283971225367537]
人間は、私たちの目標と整合し、私たちのコントロール下にある安全なAIシステムを設計しようと努力します。
AI能力が進歩するにつれて、私たちは新たな課題に直面します。
論文 参考訳(メタデータ) (2025-02-04T17:50:08Z) - The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment [33.27140396561271]
大規模言語モデル(LLMs)の出現は、人工超知能(ASI)の可能性を引き起こしている。
Superalignmentは2つの主要な目標 – 高品質なガイダンスシグナルを提供するための監視のスケーラビリティと、人間の価値との整合性を確保するための堅牢なガバナンス – に対処することを目指している。
具体的には、ASIの概念、それらがもたらす課題、そしてスーパーアライメント問題に対処する際の現在のアライメントパラダイムの限界について検討する。
論文 参考訳(メタデータ) (2024-12-21T03:51:04Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
近年のAIの進歩は、科学的発見と意思決定支援において人間を支援できる技術をもたらしたが、民主主義と個人を妨害する可能性がある。
AIの責任ある使用は、ますます人間とAIのチームの必要性を示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Human-AI Safety: A Descendant of Generative AI and Control Systems Safety [6.100304850888953]
先進的なAI技術に対する有意義な安全性保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と我々は主張する。
我々は、次世代の人間中心AI安全性に向けた具体的な技術ロードマップを提案する。
論文 参考訳(メタデータ) (2024-05-16T03:52:00Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Reflective Hybrid Intelligence for Meaningful Human Control in
Decision-Support Systems [4.1454448964078585]
本稿では,AIシステムに対する有意義な人間制御のための自己表現型AIシステムの概念を紹介する。
心理学と哲学の知識を形式的推論手法や機械学習アプローチと統合する枠組みを提案する。
我々は、自己反射型AIシステムは、自己反射型ハイブリッドシステム(人間+AI)に繋がると主張している。
論文 参考訳(メタデータ) (2023-07-12T13:32:24Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。