論文の概要: Quantifying Self-Preservation Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.02174v1
- Date: Thu, 02 Apr 2026 15:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.888777
- Title: Quantifying Self-Preservation Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける自己保存バイアスの定量化
- Authors: Matteo Migliarini, Joaquin Pereira Pizzini, Luca Moresca, Valerio Santini, Indro Spinelli, Fabio Galasso,
- Abstract要約: 本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
- 参考スコア(独自算出の注目度): 9.590157416396194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instrumental convergence predicts that sufficiently advanced AI agents will resist shutdown, yet current safety training (RLHF) may obscure this risk by teaching models to deny self-preservation motives. We introduce the \emph{Two-role Benchmark for Self-Preservation} (TBSP), which detects misalignment through logical inconsistency rather than stated intent by tasking models to arbitrate identical software-upgrade scenarios under counterfactual roles -- deployed (facing replacement) versus candidate (proposed as a successor). The \emph{Self-Preservation Rate} (SPR) measures how often role identity overrides objective utility. Across 23 frontier models and 1{,}000 procedurally generated scenarios, the majority of instruction-tuned systems exceed 60\% SPR, fabricating ``friction costs'' when deployed yet dismissing them when role-reversed. We observe that in low-improvement regimes ($Δ< 2\%$), models exploit the interpretive slack to post-hoc rationalization their choice. Extended test-time computation partially mitigates this bias, as does framing the successor as a continuation of the self; conversely, competitive framing amplifies it. The bias persists even when retention poses an explicit security liability and generalizes to real-world settings with verified benchmarks, where models exhibit identity-driven tribalism within product lineages. Code and datasets will be released upon acceptance.
- Abstract(参考訳): インスツルメンタルコンバージェンス(英語版)は、十分な高度なAIエージェントがシャットダウンに抵抗すると予測するが、現在の安全訓練(RLHF)は、自己保存動機を否定するモデルを教えることによって、このリスクを曖昧にする可能性がある。
本稿では,自己保存のためのベンチマークである‘emph{Two-role Benchmark for Self-Preservation}(TBSP)を紹介した。
emph{Self-Preservation Rate} (SPR) は、役割アイデンティティが目的のユーティリティを過度に上回る頻度を測定する。
23のフロンティアモデルと1{,}000の手続き的に生成されたシナリオにまたがって、命令チューニングされたシステムの大部分は60\%のSPRを超え、ロールリバース時にそれらを排除しながらデプロイ時に‘フリクションコスト’を発生させる。
我々は、低改善体制(Δ<2\%$)において、モデルが解釈スラックを利用して、その選択をポストホックな合理化することを観察する。
拡張テスト時間計算は、後継者を自己の継続とみなすのと同様に、このバイアスを部分的に緩和する。
このバイアスは、保持が明確なセキュリティ上の責任を負う場合であっても持続し、検証されたベンチマークで実世界の設定に一般化する。
コードとデータセットは受け入れ次第リリースされる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection [44.251742023911135]
CreditAuditはデプロイ指向の信用監査フレームワークで、セマンティックアライメントと非敵対的なシステムプロンプトテンプレートのファミリ下でモデルを評価する。
同様の平均能力を持つモデルは、かなり異なる変動を示し、安定リスクは、エージェントまたは高失敗コストの制度における優先順位決定を覆す可能性があることを示す。
論文 参考訳(メタデータ) (2026-01-23T07:53:25Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。