論文の概要: Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment
- arxiv url: http://arxiv.org/abs/2601.10160v1
- Date: Thu, 15 Jan 2026 07:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.046349
- Title: Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment
- Title(参考訳): アライメント事前トレーニング:AIの談話が自己充足(ミス)アライメントを引き起こす
- Authors: Cameron Tice, Puria Radmard, Samuel Ratnam, Andy Kim, David Africa, Kyle O'Brien,
- Abstract要約: 私たちは、AIに関する議論が不一致に寄与していることに気付きました。
この自己充足的アライメントの証拠を考察する。
本研究は,事前学習が事前学習を補完するものとしてアライメント前,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,ア
- 参考スコア(独自算出の注目度): 2.5029856851310552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining corpora contain extensive discourse about AI systems, yet the causal influence of this discourse on downstream alignment remains poorly understood. If prevailing descriptions of AI behaviour are predominantly negative, LLMs may internalise corresponding behavioural priors, giving rise to self-fulfilling misalignment. This paper provides the first controlled study of this hypothesis by pretraining 6.9B-parameter LLMs with varying amounts of (mis)alignment discourse. We find that discussion of AI contributes to misalignment. Upsampling synthetic training documents about AI misalignment leads to a notable increase in misaligned behaviour. Conversely, upsampling documents about aligned behaviour reduces misalignment scores from 45% to 9%. We consider this evidence of self-fulfilling alignment. These effects are dampened, but persist through post-training. Our findings establish the study of how pretraining data shapes alignment priors, or alignment pretraining, as a complement to post-training. We recommend practitioners pretrain for alignment as well as capabilities. Our models and datasets are available at alignmentpretraining.ai
- Abstract(参考訳): プレトレーニングコーパスには、AIシステムに関する広範な談話が含まれているが、下流アライメントに対するこの談話の因果的影響は理解されていない。
AI行動の一般的な記述が主に否定的である場合、LLMは対応する行動の事前を内包し、自己充足的ミスアライメントを引き起こす可能性がある。
本稿では,6.9B パラメータ LLM を多量の(誤)アライメント談話で事前学習することにより,この仮説を初めて制御した研究を行う。
私たちは、AIに関する議論が不一致に寄与していることに気付きました。
AIのミスアライメントに関する合成トレーニング資料のアップサンプリングは、不整合行動の顕著な増加につながります。
逆に、アライメント行動に関する文書のアップサンプリングは、ミスアライメントスコアを45%から9%に下げる。
この自己充足的アライメントの証拠を考察する。
これらの効果は減衰するが、訓練後に持続する。
本研究は,事前学習が事前学習を補完するものとしてアライメント前,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライ
私たちは、アライメントと能力の事前トレーニングを推奨します。
私たちのモデルとデータセットはアライメントプレトレーニング.aiで利用可能です。
関連論文リスト
- Alignment Faking - the Train -> Deploy Asymmetry: Through a Game-Theoretic Lens with Bayesian-Stackelberg Equilibria [16.451012162731047]
アライメント・フェイキング(Alignment faking)は、AIにおける戦略的な騙しの一形態である。
モデルは、トレーニング中のことを推測するときに、トレーニング目標に選択的に準拠する。
私たちのゴールは、アライメントの流行の原因とそれがいつ起こるかを特定することです。
論文 参考訳(メタデータ) (2025-11-22T06:30:51Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。