論文の概要: The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?
- arxiv url: http://arxiv.org/abs/2601.23045v1
- Date: Fri, 30 Jan 2026 14:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.512041
- Title: The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?
- Title(参考訳): The Hot Mess of AI: モデルインテリジェンスとタスクの複雑さでミスアライメントはどのようにスケールするか?
- Authors: Alexander Hägele, Aryo Pradipta Gema, Henry Sleight, Ethan Perez, Jascha Sohl-Dickstein,
- Abstract要約: AIがより有能になるにつれて、より汎用的で簡潔なタスクを委任します。
我々はAIモデルによる誤りのバイアス分散分解を用いてこの問題を運用する。
より有能なAIはより困難なタスクを追求し、よりシーケンシャルな行動と思考を必要とするので、私たちの結果は失敗がより一貫性のない行動を伴うことを予測します。
- 参考スコア(独自算出の注目度): 53.15349353876531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI becomes more capable, we entrust it with more general and consequential tasks. The risks from failure grow more severe with increasing task scope. It is therefore important to understand how extremely capable AI models will fail: Will they fail by systematically pursuing goals we do not intend? Or will they fail by being a hot mess, and taking nonsensical actions that do not further any goal? We operationalize this question using a bias-variance decomposition of the errors made by AI models: An AI's \emph{incoherence} on a task is measured over test-time randomness as the fraction of its error that stems from variance rather than bias in task outcome. Across all tasks and frontier models we measure, the longer models spend reasoning and taking actions, \emph{the more incoherent} their failures become. Incoherence changes with model scale in a way that is experiment dependent. However, in several settings, larger, more capable models are more incoherent than smaller models. Consequently, scale alone seems unlikely to eliminate incoherence. Instead, as more capable AIs pursue harder tasks, requiring more sequential action and thought, our results predict failures to be accompanied by more incoherent behavior. This suggests a future where AIs sometimes cause industrial accidents (due to unpredictable misbehavior), but are less likely to exhibit consistent pursuit of a misaligned goal. This increases the relative importance of alignment research targeting reward hacking or goal misspecification.
- Abstract(参考訳): AIがより有能になるにつれて、より汎用的で簡潔なタスクを委任します。
障害によるリスクは、タスクスコープの増大とともにより深刻になる。
したがって、非常に有能なAIモデルがどのように失敗するかを理解することが重要である。
あるいは、ホットな混乱に陥り、それ以上の目標を達成できない非感覚的な行動をとることで失敗するのだろうか?
タスク上のAIの \emph{incoherence} は、タスク結果のバイアスよりも分散に起因するエラーの分断として、テスト時ランダム性によって測定される。
計測するすべてのタスクとフロンティアモデル全体で、推論とアクションを取るのに長いモデルが費やされると、その失敗はより不整合になる。
モデルスケールによる不整合は、実験に依存する方法で変化する。
しかし、いくつかの設定では、より大きく、より有能なモデルはより小さなモデルよりも不整合である。
その結果、スケールだけでは不整合を排除することはありそうにない。
代わりに、より有能なAIがより困難なタスクを追求し、よりシーケンシャルな行動と思考を必要とするので、私たちの結果は失敗がより一貫性のない行動を伴うことを予測します。
これは、AIが時に産業事故を引き起こす(予測不可能な誤った振る舞いのため)未来を示唆するが、不整合した目標を一貫して追求する可能性は低い。
これにより、報酬のハッキングやゴールの特定を目標とするアライメント研究の相対的な重要性が増す。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs [39.5095344448076]
単一ステップ精度の限界ゲインであっても、モデルが正常に完了できるタスク長の指数的な改善に結びつくことを示す。
単純なタスクの失敗は、推論ができないというよりも、実行時のミスによるものである、と我々は主張する。
論文 参考訳(メタデータ) (2025-09-11T17:59:34Z) - Great Models Think Alike and this Undermines AI Oversight [47.7725284401918]
モデル類似性がAI監視の両面に与える影響について検討する。
本稿では,モデルミスの重複に基づくLM類似度尺度CAPAを提案する。
我々の研究は、モデル類似性の報告と修正の重要性を強調します。
論文 参考訳(メタデータ) (2025-02-06T18:56:01Z) - Unveiling AI's Blind Spots: An Oracle for In-Domain, Out-of-Domain, and Adversarial Errors [4.525077884001726]
AIモデルが犯す過ち、なぜ発生し、どのように予測するかを理解することは、依然としてオープンな課題である。
我々は、他の「メンタ」モデルのエラーを予測するために設計されたディープニューラルネットワークである「メンタ」モデルを用いて、経験的評価を行う。
我々は、ImageNet-1Kデータセットから異なるエラータイプのエラーを予測する上で、ベースラインのメンターよりも優れた、SuperMentorと呼ばれる"オークル"メンターモデルを開発した。
論文 参考訳(メタデータ) (2024-10-03T11:02:39Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。