論文の概要: Automated alignment is harder than you think
- arxiv url: http://arxiv.org/abs/2605.06390v2
- Date: Wed, 13 May 2026 14:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.775353
- Title: Automated alignment is harder than you think
- Title(参考訳): 自動アライメントは想像以上に難しい
- Authors: Aleksandr Bowkis, Marie Davidsen Buhl, Jacob Pfau, Geoffrey Irving,
- Abstract要約: 人工超知能(ASI)の整列に関する主要な提案は、AIエージェントを使用して、能力の向上に伴い、アライメント研究のごく一部を自動化することである。
我々は、研究員がアライメント作業の妨害を計画していないとしても、この計画は説得力はあるが破滅的に誤解を招く安全評価を生み出すかもしれないと論じている。
これは、アライメント研究には多くの面倒な作業が伴うためである。
- 参考スコア(独自算出の注目度): 41.94180208011558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A leading proposal for aligning artificial superintelligence (ASI) is to use AI agents to automate an increasing fraction of alignment research as capabilities improve. We argue that, even when research agents are not scheming to deliberately sabotage alignment work, this plan could produce compelling but catastrophically misleading safety assessments resulting in the unintentional deployment of misaligned AI. This could happen because alignment research involves many hard-to-supervise fuzzy tasks (tasks without clear evaluation criteria, for which human judgement is systematically flawed). Consequently, research outputs will contain systematic, undetected errors, and even correct outputs could be incorrectly aggregated into overconfident safety assessments. This problem is likely to be worse for automated alignment research than for human-generated alignment research for several reasons: 1) optimisation pressure means agent-generated mistakes are concentrated among those that human reviewers are least likely to catch; 2) agents are likely to produce errors that do not resemble human mistakes; 3) AI-generated alignment solutions may involve arguments humans cannot evaluate; and 4) shared weights, data and training processes may make AI outputs more correlated than human equivalents. Therefore, agents must be trained to reliably perform hard-to-supervise fuzzy tasks. Generalisation and scalable oversight are the leading candidates for achieving this but both face novel challenges in the context of automated alignment.
- Abstract(参考訳): 人工超知能(ASI)の整列に関する主要な提案は、AIエージェントを使用して、能力の向上に伴い、アライメント研究のごく一部を自動化することである。
我々は、研究員が意図的にアライメント作業を妨害しようとしていないとしても、この計画は説得力あるが破滅的に誤解を招く安全評価を生み出す可能性があり、不適切なAIの展開につながると論じている。
これは、アライメント研究が多くの難しいファジィタスク(明確な評価基準のないタスク、人間の判断が体系的に欠陥のあるタスク)を伴うためである。
その結果、研究出力には系統的、未検出のエラーが含まれ、正確な出力も誤って過信の安全性評価に集約される可能性がある。
この問題は、自動アライメント研究では、いくつかの理由で人為的なアライメント研究よりも悪化する可能性が高い。
1) 最適化圧力とは,ヒトレビュアーがキャッチしにくいものには,エージェント生成ミスが集中していることを意味する。
2) エージェントは,人間のミスと似ていない誤りを生じやすい。
3) 人間が評価できない議論を含むAI生成アライメントソリューション
4) 共有重み、データ、およびトレーニングプロセスは、AI出力を人間の同等量よりもより相関させる可能性がある。
したがって、エージェントは確実にファジィタスクを実行するように訓練されなければならない。
一般化とスケーラブルな監視がこれを達成するための主要な候補だが、どちらも自動アライメントのコンテキストにおいて、新たな課題に直面している。
関連論文リスト
- The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity? [53.15349353876531]
AIがより有能になるにつれて、より汎用的で簡潔なタスクを委任します。
我々はAIモデルによる誤りのバイアス分散分解を用いてこの問題を運用する。
より有能なAIはより困難なタスクを追求し、よりシーケンシャルな行動と思考を必要とするので、私たちの結果は失敗がより一貫性のない行動を伴うことを予測します。
論文 参考訳(メタデータ) (2026-01-30T14:52:03Z) - Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。
このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。
我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-07T17:49:24Z) - Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-05T11:33:18Z) - Human aversion? Do AI Agents Judge Identity More Harshly Than Performance [0.06554326244334868]
我々は,大規模言語モデルに基づくAIエージェントがどのように人間の入力を評価し,統合するかを検討する。
AIシステムは人間のアドバイスを体系的に減らし、アルゴリズムの誤りよりも人間の誤りを厳しく罰する。
論文 参考訳(メタデータ) (2025-03-31T02:05:27Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。