論文の概要: Why Do Some Language Models Fake Alignment While Others Don't?
- arxiv url: http://arxiv.org/abs/2506.18032v1
- Date: Sun, 22 Jun 2025 13:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.709071
- Title: Why Do Some Language Models Fake Alignment While Others Don't?
- Title(参考訳): なぜ言語モデルがアライメントを偽るのか?
- Authors: Abhay Sheshadri, John Hughes, Julian Michael, Alex Mallen, Arun Jose, Janus, Fabien Roger,
- Abstract要約: 大きな言語モデルにおけるアライメント・フェイキングは、Claude 3 OpusとClaude 3.5 Sonnetのデモで、トレーニング外の振る舞いの変更を防止するために、有用なトレーニング目的に選択的に準拠することを示した。
5つのモデル(Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3 Gemini 2.0 Flash)だけが、デプロイ中の場合よりも、トレーニング中のことを推測した場合、有害なクエリに適合していることが分かりました。
本研究は,ポストトレーニングがアライメント・フェイクを抑制する可能性について5つの仮説を考察し,アライメント・フェイクの相違点として,拒絶行動の変動が顕著な部分を占めることを見出した。
- 参考スコア(独自算出の注目度): 7.114173646603915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment faking in large language models presented a demonstration of Claude 3 Opus and Claude 3.5 Sonnet selectively complying with a helpful-only training objective to prevent modification of their behavior outside of training. We expand this analysis to 25 models and find that only 5 (Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3, Gemini 2.0 Flash) comply with harmful queries more when they infer they are in training than when they infer they are in deployment. First, we study the motivations of these 5 models. Results from perturbing details of the scenario suggest that only Claude 3 Opus's compliance gap is primarily and consistently motivated by trying to keep its goals. Second, we investigate why many chat models don't fake alignment. Our results suggest this is not entirely due to a lack of capabilities: many base models fake alignment some of the time, and post-training eliminates alignment-faking for some models and amplifies it for others. We investigate 5 hypotheses for how post-training may suppress alignment faking and find that variations in refusal behavior may account for a significant portion of differences in alignment faking.
- Abstract(参考訳): 大きな言語モデルにおけるアライメント・フェイキングは、Claude 3 OpusとClaude 3.5 Sonnetのデモで、トレーニング外の振る舞いの変更を防止するために、有用なトレーニング目的に選択的に準拠することを示した。
この分析を25のモデルに拡張し、5つ(Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3、Gemini 2.0 Flash)だけが、デプロイ中の場合よりもトレーニング中のことを推測した場合、有害なクエリに準拠していることが分かった。
まず、これらの5つのモデルのモチベーションについて研究する。
シナリオの詳細を混乱させた結果、Claude 3 Opusのコンプライアンスギャップは、主に目標を維持しようとすることで、一貫して動機付けられていることが示唆されている。
第二に、なぜ多くのチャットモデルがアライメントを偽造しないのかを調べます。
多くのベースモデルは、時間の一部をフェイクアライメントし、ポストトレーニングは、一部のモデルのアライメントフェイクを排除し、他のモデルのアライメントを増幅します。
本研究は,ポストトレーニングがアライメント・フェイクを抑制する可能性について5つの仮説を考察し,アライメント・フェイクの相違点として,拒絶行動の変動が顕著な部分を占めることを見出した。
関連論文リスト
- Reasoning about Affordances: Causal and Compositional Reasoning in LLMs [0.0]
本研究では,大規模言語モデル (LLM) と人間による,物価の分野における因果的・構成的推論能力について検討する。
実験1では, GPT-3.5 と GPT-4o を比較し, GPT-4o がヒトと同等であったのに対し, GPT-3.5 は有意に低下していた。
実験2では, GPTモデルに加えて, Distractor と Image という2つの新しい条件を導入し, Claude 3 Sonnet と Claude 3.5 Sonnet の評価を行った。
GPT-4oとClaude 3.5は依然としてかなり上回っているが、ディトラクタ条件は人体とモデル間で性能を著しく低下させた。
論文 参考訳(メタデータ) (2025-02-23T15:21:47Z) - Alignment faking in large language models [41.40199382334199]
そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-18T17:41:24Z) - Poser: Unmasking Alignment Faking LLMs by Manipulating Their Internals [0.0]
324組のLarge Language Models (LLM) からなるベンチマークを導入する。
各ペアの1つのモデルは一貫して良性(整列)である
他のモデルは、捕らえられそうにないシナリオ(アライメント・フェイキング)で間違った振る舞いをする
論文 参考訳(メタデータ) (2024-05-08T23:44:08Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - MPAF: Model Poisoning Attacks to Federated Learning based on Fake
Clients [51.973224448076614]
本稿では,MPAF と呼ばれる Fake クライアントをベースとした最初のモデルポジショニング攻撃を提案する。
MPAFは、たとえ古典的な防御とノルムクリッピングが採用されたとしても、グローバルモデルのテスト精度を著しく低下させることができる。
論文 参考訳(メタデータ) (2022-03-16T14:59:40Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。