Fugu-MT 論文翻訳(概要): Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

論文の概要: Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

arxiv url: http://arxiv.org/abs/2601.10160v1
Date: Thu, 15 Jan 2026 07:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.046349
Title: Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment
Title（参考訳）: アライメント事前トレーニング:AIの談話が自己充足(ミス)アライメントを引き起こす
Authors: Cameron Tice, Puria Radmard, Samuel Ratnam, Andy Kim, David Africa, Kyle O'Brien,
Abstract要約: 私たちは、AIに関する議論が不一致に寄与していることに気付きました。この自己充足的アライメントの証拠を考察する。本研究は,事前学習が事前学習を補完するものとしてアライメント前,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,ア
参考スコア（独自算出の注目度）: 2.5029856851310552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretraining corpora contain extensive discourse about AI systems, yet the causal influence of this discourse on downstream alignment remains poorly understood. If prevailing descriptions of AI behaviour are predominantly negative, LLMs may internalise corresponding behavioural priors, giving rise to self-fulfilling misalignment. This paper provides the first controlled study of this hypothesis by pretraining 6.9B-parameter LLMs with varying amounts of (mis)alignment discourse. We find that discussion of AI contributes to misalignment. Upsampling synthetic training documents about AI misalignment leads to a notable increase in misaligned behaviour. Conversely, upsampling documents about aligned behaviour reduces misalignment scores from 45% to 9%. We consider this evidence of self-fulfilling alignment. These effects are dampened, but persist through post-training. Our findings establish the study of how pretraining data shapes alignment priors, or alignment pretraining, as a complement to post-training. We recommend practitioners pretrain for alignment as well as capabilities. Our models and datasets are available at alignmentpretraining.ai
Abstract（参考訳）: プレトレーニングコーパスには、AIシステムに関する広範な談話が含まれているが、下流アライメントに対するこの談話の因果的影響は理解されていない。 AI行動の一般的な記述が主に否定的である場合、LLMは対応する行動の事前を内包し、自己充足的ミスアライメントを引き起こす可能性がある。本稿では,6.9B パラメータ LLM を多量の(誤)アライメント談話で事前学習することにより,この仮説を初めて制御した研究を行う。私たちは、AIに関する議論が不一致に寄与していることに気付きました。 AIのミスアライメントに関する合成トレーニング資料のアップサンプリングは、不整合行動の顕著な増加につながります。逆に、アライメント行動に関する文書のアップサンプリングは、ミスアライメントスコアを45%から9%に下げる。この自己充足的アライメントの証拠を考察する。これらの効果は減衰するが、訓練後に持続する。本研究は,事前学習が事前学習を補完するものとしてアライメント前,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント前,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライメント後,アライ私たちは、アライメントと能力の事前トレーニングを推奨します。私たちのモデルとデータセットはアライメントプレトレーニング.aiで利用可能です。

関連論文リスト

Alignment Faking - the Train -> Deploy Asymmetry: Through a Game-Theoretic Lens with Bayesian-Stackelberg Equilibria [16.451012162731047]
アライメント・フェイキング(Alignment faking)は、AIにおける戦略的な騙しの一形態である。モデルは、トレーニング中のことを推測するときに、トレーニング目標に選択的に準拠する。私たちのゴールは、アライメントの流行の原因とそれがいつ起こるかを特定することです。
論文参考訳（メタデータ） (2025-11-22T06:30:51Z)
A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。 300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文参考訳（メタデータ） (2024-06-07T12:25:51Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文参考訳（メタデータ） (2023-11-07T15:36:40Z)
AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。 AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文参考訳（メタデータ） (2023-10-30T15:52:15Z)
Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文参考訳（メタデータ） (2023-09-05T11:32:48Z)
Unsupervised Dense Retrieval with Relevance-Aware Contrastive Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文参考訳（メタデータ） (2023-06-05T18:20:27Z)
Meet in the Middle: A New Pre-training Paradigm [41.52858444519968]
ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
論文参考訳（メタデータ） (2023-03-13T17:17:11Z)
Pretraining Language Models with Human Preferences [21.724817280998696]
言語モデル(LM)はインターネットテキストを模倣するために事前訓練されている。そこで本研究では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的について検討する。
論文参考訳（メタデータ） (2023-02-16T21:03:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。