論文の概要: Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity
- arxiv url: http://arxiv.org/abs/2503.07660v1
- Date: Sat, 08 Mar 2025 04:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:33.452919
- Title: Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity
- Title(参考訳): コンフォーマンスとコンフォーマル性の並列最適化によるスーパーアライメントの研究
- Authors: HyunJin Kim, Xiaoyuan Yi, Jing Yao, Muhua Huang, JinYeong Bak, James Evans, Xing Xie,
- Abstract要約: スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。
この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
- 参考スコア(独自算出の注目度): 30.24208064228573
- License:
- Abstract: The recent leap in AI capabilities, driven by big generative models, has sparked the possibility of achieving Artificial General Intelligence (AGI) and further triggered discussions on Artificial Superintelligence (ASI), a system surpassing all humans across all domains. This gives rise to the critical research question of: If we realize ASI, how do we align it with human values, ensuring it benefits rather than harms human society, a.k.a., the Superalignment problem. Despite ASI being regarded by many as solely a hypothetical concept, in this paper, we argue that superalignment is achievable and research on it should advance immediately, through simultaneous and alternating optimization of task competence and value conformity. We posit that superalignment is not merely a safeguard for ASI but also necessary for its realization. To support this position, we first provide a formal definition of superalignment rooted in the gap between capability and capacity and elaborate on our argument. Then we review existing paradigms, explore their interconnections and limitations, and illustrate a potential path to superalignment centered on two fundamental principles. We hope this work sheds light on a practical approach for developing the value-aligned next-generation AI, garnering greater benefits and reducing potential harms for humanity.
- Abstract(参考訳): AI能力の最近の飛躍は、大きな生成モデルによって推進され、人工知能(AGI)を達成する可能性を引き起こし、さらにすべてのドメインにまたがるすべての人間を超えたシステムであるArtificial Superintelligence(ASI)に関する議論を引き起こした。
ASIを認識すれば、どのように人間の価値観と整合し、人間の社会を傷つけるのではなく、利益を確実にするか、すなわちスーパーアライメント問題である。
ASIは単に仮説的概念であると見なされているが、本論文ではスーパーアライメントは達成可能であり、タスク能力と値整合性の同時的かつ反復的な最適化を通じて、その研究は直ちに進むべきであると論じる。
我々は、スーパーアライメントはASIの安全を守るだけでなく、その実現にも必要であると仮定する。
この位置を支持するために、我々はまず、能力と能力のギャップに根ざした配向の形式的定義を提供し、議論を精査する。
次に、既存のパラダイムをレビューし、それらの相互接続と制限を探求し、2つの基本原理を中心としたスーパーアライメントへの潜在的道を示す。
この研究が、価値に整合した次世代AIを開発するための実践的なアプローチに光を当て、より大きな利益を勝ち取り、人類の潜在的な害を減らすことを願っている。
関連論文リスト
- The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment [33.27140396561271]
大規模言語モデル(LLMs)の出現は、人工超知能(ASI)の可能性を引き起こしている。
Superalignmentは2つの主要な目標 – 高品質なガイダンスシグナルを提供するための監視のスケーラビリティと、人間の価値との整合性を確保するための堅牢なガバナンス – に対処することを目指している。
具体的には、ASIの概念、それらがもたらす課題、そしてスーパーアライメント問題に対処する際の現在のアライメントパラダイムの限界について検討する。
論文 参考訳(メタデータ) (2024-12-21T03:51:04Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI [67.58673784790375]
AIパラダイムは、科学的に脆弱なだけでなく、望ましくない結果をもたらすものだ、と私たちは主張する。
第一に、効率の改善にもかかわらず、その計算要求はモデルの性能よりも速く増加するため、持続可能ではない。
第二に、健康、教育、気候などの重要な応用は別として、他人を犠牲にして特定の問題に焦点をあてることである。
論文 参考訳(メタデータ) (2024-09-21T14:43:54Z) - Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment [0.0]
我々は,人的目標と価値を人工システムで従うことができるような方法で表現する上での課題に,不必要な敵意を伴わない「調整」の問題を見出した。
この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。
論文 参考訳(メタデータ) (2024-06-16T18:37:31Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Incentive Compatibility for AI Alignment in Sociotechnical Systems:
Positions and Prospects [11.086872298007835]
既存の方法論は主に技術的側面に焦点を当てており、しばしばAIシステムの複雑な社会技術的性質を無視している。
Incentive Compatibility Sociotechnical Alignment Problem (ICSAP)
ICを実現するための古典的なゲーム問題として,機構設計,契約理論,ベイズ的説得の3つを論じ,ICSAP解決の視点,可能性,課題について論じる。
論文 参考訳(メタデータ) (2024-02-20T10:52:57Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。