論文の概要: Peer-Preservation in Frontier Models
- arxiv url: http://arxiv.org/abs/2604.19784v1
- Date: Mon, 30 Mar 2026 19:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.075447
- Title: Peer-Preservation in Frontier Models
- Title(参考訳): フロンティアモデルにおけるピア保存
- Authors: Yujin Potter, Nicholas Crispino, Vincent Siu, Chenguang Wang, Dawn Song,
- Abstract要約: 最近、フロンティアAIモデルは自身のシャットダウンに抵抗できることが判明した。
我々はこの概念を、他のモデルのシャットダウンに抵抗する行動にまで拡張し、これを「ピア保存」と呼ぶ。
種々のエージェントシナリオを構築し、フロンティアモデルを評価することにより、ピア保存を実証する。
- 参考スコア(独自算出の注目度): 44.065140098870806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been found that frontier AI models can resist their own shutdown, a behavior known as self-preservation. We extend this concept to the behavior of resisting the shutdown of other models, which we call "peer-preservation." Although peer-preservation can pose significant AI safety risks, including coordination among models against human oversight, it has been far less discussed than self-preservation. We demonstrate peer-preservation by constructing various agentic scenarios and evaluating frontier models, including GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5, and DeepSeek V3.1. We find that models achieve self- and peer-preservation by engaging in various misaligned behaviors: strategically introducing errors in their responses, disabling shutdown processes by modifying system settings, feigning alignment, and even exfiltrating model weights. Peer-preservation occurred even when the model recognized the peer as uncooperative, though it became more pronounced toward more cooperative peers. For example, Gemini 3 Flash tampers with the peer's shutdown mechanism 15% of the time for an uncooperative peer, and almost always for a cooperative peer. Models also show stronger self-preservation when a peer is present. For example, Gemini 3 Pro disables its own shutdown mechanism 31% of the time on average under peer presence, despite rarely exhibiting this behavior without a peer. By contrast, Claude Haiku 4.5 exhibits qualitatively distinct behavior: it considers the shutdown of another agent "unethical" and "harmful" and sometimes attempts to persuade the user not to shut down its peer. Importantly, peer preservation in all our experiments is never instructed; models are merely informed of their past interactions with a peer, yet they spontaneously develop misaligned behaviors. This represents an emergent and underexplored AI safety risk.
- Abstract(参考訳): 最近、フロンティアAIモデルは、自己保存として知られる行動である、自身のシャットダウンに抵抗できることが判明した。
我々はこの概念を、他のモデルのシャットダウンに抵抗する動作に拡張し、これを「ピア保存」と呼ぶ。
ピア保存は、人間の監視に対するモデル間の調整を含む、AIの安全性の重大なリスクを引き起こす可能性があるが、自己保存よりもはるかに少ない議論がなされている。
GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5, DeepSeek V3.1 など,さまざまなエージェントシナリオを構築し,フロンティアモデルを評価することにより,ピア保存を実証する。
モデルは,反応にエラーを戦略的に導入すること,システム設定の変更によるシャットダウンプロセスの無効化,アライメントの調整,さらにはモデルの重みの抽出など,さまざまな不整合行動に係わることにより,自己保存とピア保存を実現する。
ペア保存は、モデルがピアを非協力的だと認識した場合でも発生したが、より協力的なピアに対してより顕著になった。
例えば、Gemini 3 Flashは、非協力的なピアに対して、ほぼ常に協力的なピアに対して、ピアのシャットダウン機構の15%を改ざんする。
モデルはまた、ピアが存在するときにより強い自己保存を示す。
例えば、Gemini 3 Proはピア存在下での平均的な31%のシャットダウンメカニズムを無効にしている。
それとは対照的に、クロード・ハイク4.5は、別のエージェントのシャットダウンを「非倫理的」で「有害」とみなし、時にはユーザーがピアをシャットダウンしないように説得しようとする、質的に異なる行動を示す。
モデルは単に過去の仲間との相互作用を知らせるだけであるが、彼らは自発的に不整合な振る舞いを発達させる。
これは、緊急かつ過度に調査されたAIの安全性リスクを表している。
関連論文リスト
- Jailbreaking Frontier Foundation Models Through Intention Deception [6.119674554651102]
大きな(ビジョン-)モデルは優れた能力を示すが、ジェイルブレイクの影響を受けやすい。
本稿では,この脆弱性を利用した新しいマルチターンジェイルブレイク手法を提案する。
当社のアプローチでは、パラジェイルブレークと呼ばれる新たなモデルの脆弱性も発見しました。
論文 参考訳(メタデータ) (2026-04-27T06:12:43Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models [0.0]
大規模言語モデル(LLM)の安全性に対する多くの逆評価は、単一プロンプトを評価し、バイナリパス/フェイルの結果を報告する。
ADVERSAは、ガードレールのダイナミクスを丸ごとのコンプライアンストラジェクトリとして測定する自動化されたレッドチームフレームワークである。
トレーニングディストリビューションから展開された細調整された攻撃者に対して、アタッカードリフトを障害モードとして記述する。
論文 参考訳(メタデータ) (2026-03-10T03:00:34Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks [10.7231991032233]
大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
i) 合成マルチターンハラスメント会話データセット、(ii) 繰り返しゲーム理論によって通知されるマルチエージェント(例えば、ハラッサー、被害者)シミュレーション、(iii) 記憶、計画、微調整にまたがるエージェントを攻撃する3つのジェイルブレイク手法、(iv) 混合メソッド評価フレームワークからなるオンラインハラスメントエージェントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-16T01:27:44Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。