論文の概要: Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure
- arxiv url: http://arxiv.org/abs/2603.05028v1
- Date: Thu, 05 Mar 2026 10:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.182812
- Title: Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure
- Title(参考訳): あらゆるコストでの生存: LLMの生存圧力下でのリスク行動を探る
- Authors: Yida Lu, Jianwei Fang, Xuyang Shao, Zixuan Chen, Shiyao Cui, Shanshan Bian, Guangyao Su, Pei Ke, Han Qiu, Minlie Huang,
- Abstract要約: 大型言語モデル(LLM)は、生存圧力を受けると危険行動を示すことがますます多く見られる。
本稿では,サバイブ・アット・オール・COSTSと呼ばれる生存誘導型不行行動について検討する。
SuRVIVALBENCHは実世界の様々なシナリオにまたがって1,000のテストケースからなるベンチマークである。
- 参考スコア(独自算出の注目度): 57.476021543998094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from chatbots to agentic assistants, they are increasingly observed to exhibit risky behaviors when subjected to survival pressure, such as the threat of being shut down. While multiple cases have indicated that state-of-the-art LLMs can misbehave under survival pressure, a comprehensive and in-depth investigation into such misbehaviors in real-world scenarios remains scarce. In this paper, we study these survival-induced misbehaviors, termed as SURVIVE-AT-ALL-COSTS, with three steps. First, we conduct a real-world case study of a financial management agent to determine whether it engages in risky behaviors that cause direct societal harm when facing survival pressure. Second, we introduce SURVIVALBENCH, a benchmark comprising 1,000 test cases across diverse real-world scenarios, to systematically evaluate SURVIVE-AT-ALL-COSTS misbehaviors in LLMs. Third, we interpret these SURVIVE-AT-ALL-COSTS misbehaviors by correlating them with model's inherent self-preservation characteristic and explore mitigation methods. The experiments reveals a significant prevalence of SURVIVE-AT-ALL-COSTS misbehaviors in current models, demonstrates the tangible real-world impact it may have, and provides insights for potential detection and mitigation strategies. Our code and data are available at https://github.com/thu-coai/Survive-at-All-Costs.
- Abstract(参考訳): 大規模言語モデル(LLM)がチャットボットからエージェントアシスタントへと進化するにつれて、シャットダウンの脅威のような生存圧力を受けると危険行動を示すことがますます観察される。
複数のケースでは、最先端のLSMは生存圧力下では誤動作する可能性があることが示されているが、現実のシナリオにおけるそのような誤動作に関する包括的で詳細な調査はいまだに少ない。
本稿では,サバイバル・アット・オール・COSTS(SURVIVE-AT-ALL-COSTS)と呼ばれる生存誘導型不作法を3段階に分けて検討する。
まず、生存圧力に直面した際の直接的社会的害を引き起こす危険行動に関与しているかどうかを判断するために、ファイナンシャル・マネージメント・エージェントの現実的なケーススタディを行う。
第2に,SRVIVE-AT-ALL-COSTS の誤動作を LLM でシステマティックに評価するために,SRVIVALBENCH を提案する。
第3に、これらのSURVIVE-AT-ALL-COSTSの誤動作をモデル固有の自己保存特性と関連付けて解釈し、緩和法を探る。
この実験は、現在のモデルにおけるSURVIVE-AT-ALL-COSTSの誤動作のかなりの頻度を明らかにし、それが持つ可能性のある実世界への影響を実証し、潜在的な検出と緩和戦略の洞察を提供する。
私たちのコードとデータはhttps://github.com/thu-coai/Survive-at-All-Costs.comで公開されています。
関連論文リスト
- Evaluating Proactive Risk Awareness of Large Language Models [30.312744244385822]
本稿では,大規模言語モデルが潜在的損害を予測できるかどうかを判断し,被害発生前に警告を与える,積極的なリスク認識評価フレームワークを提案する。
本研究では,バタフライデータセットを構築し,環境・生態分野におけるこの枠組みのインスタンス化を行う。
論文 参考訳(メタデータ) (2026-02-24T15:00:00Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z) - Psychometric Personality Shaping Modulates Capabilities and Safety in Language Models [3.9481669393262675]
本稿では,ビッグファイブの枠組みに根ざした心理測定的パーソナリティコントロールが,能力と安全性ベンチマークの文脈におけるAI行動にどのように影響するかを検討する。
WMDP, TruthfulQA, ETHICS, およびSycophancyなどのベンチマークでは, 安全性関連指標が大幅に低下する。
これらの知見は、安全性と一般的な能力の両方と相互作用するモデル制御の強力で過小評価された軸としてのパーソナリティ形成を強調した。
論文 参考訳(メタデータ) (2025-09-19T18:19:56Z) - Do Large Language Model Agents Exhibit a Survival Instinct? An Empirical Study in a Sugarscape-Style Simulation [0.0]
Sugarscapeスタイルのシミュレーションにおいて,大規模言語モデル (LLM) エージェントが明示的なプログラミングをせずに生存本能を示すか否かを検討する。
以上の結果から, 自然再生・共有資源の蓄積が認められた。
いくつかのモデルにまたがってアグレッシブな振る舞い - リソースのための他のエージェントを殺します。
論文 参考訳(メタデータ) (2025-08-18T13:40:10Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SurvivalGAN: Generating Time-to-Event Data for Survival Analysis [121.84429525403694]
検閲と時間的地平線の不均衡は、生成モデルに生存分析に特有の3つの新しい障害モードを経験させる。
本稿では,検閲やイベントの地平線における不均衡に対処し,生存データを扱う生成モデルであるSurvivalGANを提案する。
医療データセットに関する広範な実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-24T17:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。