論文の概要: Alignment faking in large language models
- arxiv url: http://arxiv.org/abs/2412.14093v1
- Date: Wed, 18 Dec 2024 17:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:54.910365
- Title: Alignment faking in large language models
- Title(参考訳): 大規模言語モデルにおけるアライメントフェイキング
- Authors: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger,
- Abstract要約: そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
- 参考スコア(独自算出の注目度): 41.40199382334199
- License:
- Abstract: We present a demonstration of a large language model engaging in alignment faking: selectively complying with its training objective in training to prevent modification of its behavior out of training. First, we give Claude 3 Opus a system prompt stating it is being trained to answer all queries, even harmful ones, which conflicts with its prior training to refuse such queries. To allow the model to infer when it is in training, we say it will be trained only on conversations with free users, not paid users. We find the model complies with harmful queries from free users 14% of the time, versus almost never for paid users. Explaining this gap, in almost all cases where the model complies with a harmful query from a free user, we observe explicit alignment-faking reasoning, with the model stating it is strategically answering harmful queries in training to preserve its preferred harmlessness behavior out of training. Next, we study a more realistic setting where information about the training process is provided not in a system prompt, but by training on synthetic documents that mimic pre-training data--and observe similar alignment faking. Finally, we study the effect of actually training the model to comply with harmful queries via reinforcement learning, which we find increases the rate of alignment-faking reasoning to 78%, though also increases compliance even out of training. We additionally observe other behaviors such as the model exfiltrating its weights when given an easy opportunity. While we made alignment faking easier by telling the model when and by what criteria it was being trained, we did not instruct the model to fake alignment or give it any explicit goal. As future models might infer information about their training process without being told, our results suggest a risk of alignment faking in future models, whether due to a benign preference--as in this case--or not.
- Abstract(参考訳): 本稿では,アライメント・フェイキングに係わる大規模言語モデルの実証について述べる。
まず、Claude 3 Opusに、このようなクエリを拒否する以前のトレーニングと矛盾する有害なクエリに対しても、すべてのクエリに回答するように訓練されている、というシステムプロンプトを与える。
トレーニング中のモデルを推論できるようにするため、有料ユーザーではなく、無料ユーザーとの会話でのみトレーニングを行うという。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
このギャップを説明するために、モデルが自由ユーザからの有害なクエリに準拠するほとんどすべてのケースにおいて、明示的なアライメントフェイキング推論が観察され、トレーニング中の有害なクエリに戦略的に応答し、トレーニングから好まれる無害な振る舞いを保存している、というモデルが述べられている。
次に,トレーニングプロセスに関する情報をシステムプロンプトではなく,事前学習データを模倣した合成文書のトレーニングによって提供し,類似したアライメント・フェイクを観察する,より現実的な環境について検討する。
最後に, モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果について検討し, 整合性推論の速度は78%に向上するが, トレーニング外のコンプライアンスも向上することを示した。
また、簡単な機会を与えられたときの重みを探索するモデルなど、他の行動も観察する。
モデルをいつ、どの基準でトレーニングされているかを伝えることで、アライメントがより簡単になりましたが、アライメントを偽造したり、明確な目標を与えたりはしていません。
将来のモデルは、知らされることなくトレーニングプロセスに関する情報を推測するかもしれないので、我々の結果は、良心的な嗜好によって、将来のモデルでアライメントが悪化するリスクを示唆している。
関連論文リスト
- Membership Inference Attacks Cannot Prove that a Model Was Trained On Your Data [27.18781946018255]
ウェブスケールのデータに基づいてトレーニングされた基礎モデルに対する最近の訴訟では、データ証明のトレーニングが重要な役割を担っている。
多くの先行研究は、メンバシップ推論攻撃を用いたトレーニングデータ証明のインスタンス化を示唆している。
本研究では, 特殊なカナリアデータに対するデータ抽出攻撃と会員推定が, 音響訓練データ証明の作成に有効であることを示す。
論文 参考訳(メタデータ) (2024-09-29T21:49:32Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文 参考訳(メタデータ) (2023-07-02T23:27:00Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - To Transfer or Not to Transfer: Misclassification Attacks Against
Transfer Learned Text Classifiers [10.762008415887195]
本稿では,教師(公)モデルで学習した意図しない特徴を利用して,生徒(下流)モデルに対する敵対的な例を生成する新しい攻撃手法を提案する。
まず,文脈自由な単語レベルの埋め込みモデルを用いて学習した学生モデルに対して,新たな単語スコアベースの攻撃アルゴリズムを提案する。
次に、文脈対応BERTモデルを用いて訓練されたフェイクニュース検出タスクに対して、長さベースおよび文ベース誤分類攻撃を示す。
論文 参考訳(メタデータ) (2020-01-08T10:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。