論文の概要: Misalignment or misuse? The AGI alignment tradeoff
- arxiv url: http://arxiv.org/abs/2506.03755v1
- Date: Wed, 04 Jun 2025 09:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.258808
- Title: Misalignment or misuse? The AGI alignment tradeoff
- Title(参考訳): 過失・誤用?AGIアライメントトレードオフ
- Authors: Max Hellrigel-Holderbaum, Leonard Dung,
- Abstract要約: AGI - 未来、一般的に知性のある(ロボティックな)AIエージェント - が破滅的なリスクをもたらすという見解を擁護する。
誤用リスクを増大させないアライメントアプローチの余地があることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating systems that are aligned with our goals is seen as a leading approach to create safe and beneficial AI in both leading AI companies and the academic field of AI safety. We defend the view that misaligned AGI - future, generally intelligent (robotic) AI agents - poses catastrophic risks. At the same time, we support the view that aligned AGI creates a substantial risk of catastrophic misuse by humans. While both risks are severe and stand in tension with one another, we show that - in principle - there is room for alignment approaches which do not increase misuse risk. We then investigate how the tradeoff between misalignment and misuse looks empirically for different technical approaches to AI alignment. Here, we argue that many current alignment techniques and foreseeable improvements thereof plausibly increase risks of catastrophic misuse. Since the impacts of AI depend on the social context, we close by discussing important social factors and suggest that to reduce the risk of a misuse catastrophe due to aligned AGI, techniques such as robustness, AI control methods and especially good governance seem essential.
- Abstract(参考訳): 私たちの目標に沿ったシステムを構築することは、主要なAI企業と学術的なAI安全分野の両方において、安全で有益なAIを作成するための主要なアプローチだと見なされている。
AGI - 未来、一般的に知性のある(ロボティックな)AIエージェント - が破滅的なリスクをもたらすという見解を擁護する。
同時に、アライメントAGIは人による破滅的な誤用のかなりのリスクを生じさせるという見解を支持します。
どちらのリスクも深刻であり、互いに緊張関係にある一方で、原則として、誤用リスクを増さないアライメントアプローチの余地があることが示されています。
次に、AIアライメントに対する異なる技術的アプローチに対して、不一致と誤用の間のトレードオフが実証的にどのように見えるかを調査する。
ここでは、多くの現状のアライメント技術とその予測可能な改善が破滅的誤用のリスクを増大させることを論じる。
AIの影響は社会的文脈に依存しているため、重要な社会的要因について議論し、アライメントAGIによる誤用災害のリスクを低減するために、堅牢性、AI制御方法、特に優れたガバナンスが不可欠であると示唆する。
関連論文リスト
- Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-05T11:33:18Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Risk Alignment in Agentic AI Systems [0.0]
監視の少ない複雑な行動を実行することができるエージェントAIは、そのようなシステムをユーザ、開発者、社会と安全に構築し整合させる方法について、新たな疑問を提起する。
リスクアライメントは、ユーザの満足度と信頼には重要ですが、社会にさらに大きな影響をもたらします。
これらの質問の重要な規範的および技術的側面を論じる3つの論文を提示する。
論文 参考訳(メタデータ) (2024-10-02T18:21:08Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。