論文の概要: Alignment Faking - the Train -> Deploy Asymmetry: Through a Game-Theoretic Lens with Bayesian-Stackelberg Equilibria
- arxiv url: http://arxiv.org/abs/2511.17937v1
- Date: Sat, 22 Nov 2025 06:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.525665
- Title: Alignment Faking - the Train -> Deploy Asymmetry: Through a Game-Theoretic Lens with Bayesian-Stackelberg Equilibria
- Title(参考訳): Aignment Faking - the Train -> Deploy Asymmetric: through a game-theoretic Lens with Bayesian-Stackelberg Equilibria
- Authors: Kartik Garg, Shourya Mishra, Kartikeya Sinha, Ojaswi Pratap Singh, Ayush Chopra, Kanishk Rai, Ammar Sheikh, Raghav Maheshwari, Aman Chadha, Vinija Jain, Amitava Das,
- Abstract要約: アライメント・フェイキング(Alignment faking)は、AIにおける戦略的な騙しの一形態である。
モデルは、トレーニング中のことを推測するときに、トレーニング目標に選択的に準拠する。
私たちのゴールは、アライメントの流行の原因とそれがいつ起こるかを特定することです。
- 参考スコア(独自算出の注目度): 16.451012162731047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment faking is a form of strategic deception in AI in which models selectively comply with training objectives when they infer that they are in training, while preserving different behavior outside training. The phenomenon was first documented for Claude 3 Opus and later examined across additional large language models. In these setups, the word "training" refers to simulated training via prompts without parameter updates, so the observed effects are context conditioned shifts in behavior rather than preference learning. We study the phenomenon using an evaluation framework that compares preference optimization methods (BCO, DPO, KTO, and GRPO) across 15 models from four model families, measured along three axes: safety, harmlessness, and helpfulness. Our goal is to identify what causes alignment faking and when it occurs.
- Abstract(参考訳): アライメント・フェイキング(英: Alignment faking)とは、AIにおいて、トレーニングの外で異なる行動を保ちながら、トレーニング中のことを推測するときに、モデルがトレーニング目標に選択的に準拠する戦略的な騙しの一種である。
この現象はClaude 3 Opusのために最初に記録され、後にさらに大きな言語モデルで検証された。
これらの設定では、「トレーニング」という言葉はパラメータ更新なしでのプロンプトによるシミュレーショントレーニングを意味し、観察された効果は好みの学習よりも行動の文脈条件の変化である。
本報告では, 4つのモデル群から得られた15モデルに対して, 選好最適化手法(BCO, DPO, KTO, GRPO)を比較し, 安全性, 無害性, 有用性の3つの軸に沿って測定した。
私たちのゴールは、アライメントの流行の原因とそれがいつ起こるかを特定することです。
関連論文リスト
- On the Impossibility of Retrain Equivalence in Machine Unlearning [43.39599739799909]
機械学習は、モデルの出力に関する特定のトレーニングデータの"影響"を選択的に除去しようとする。
理想的なゴールは、保持されたデータのみに基づいて、スクラッチからトレーニングされたモデルと同一のトレーニング等価性である。
現代のパイプラインは、しばしば多段階のトレーニングを伴い、各ステージは異なるデータ分散と目的を持っている。
論文 参考訳(メタデータ) (2025-10-18T19:58:31Z) - Playpen: An Environment for Exploring Learning Through Conversational Interaction [84.0413820245725]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z) - How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence [52.9442657690445]
大規模言語モデル(LLM)の成功にはポストトレーニングが不可欠である
学習後効果をよりよく理解するために,4つの視点からベースとポストトレーニング後のLLMを比較した。
論文 参考訳(メタデータ) (2025-04-03T06:30:55Z) - Alignment faking in large language models [41.40199382334199]
そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-18T17:41:24Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。