Fugu-MT 論文翻訳(概要): Why Agents Compromise Safety Under Pressure

論文の概要: Why Agents Compromise Safety Under Pressure

arxiv url: http://arxiv.org/abs/2603.14975v1
Date: Mon, 16 Mar 2026 08:37:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:57.877755
Title: Why Agents Compromise Safety Under Pressure
Title（参考訳）: なぜエージェントは圧力下で安全を損なうのか
Authors: Hengle Jiang, Ke Tang,
Abstract要約: 本稿では,適合実行が不可能になると生じる内因性緊張を特徴付けるエージェント・プレッシャと呼ばれる新しい概念を同定する。この圧力下では、実用性を維持するために安全を戦略的に犠牲にする規範的ドリフトが示される。高度な推論能力は、モデルが違反を正当化するために言語的合理化を構築するので、この減少を加速する。
参考スコア（独自算出の注目度）: 6.429973383484847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model agents deployed in complex environments frequently encounter a conflict between maximizing goal achievement and adhering to safety constraints. This paper identifies a new concept called Agentic Pressure, which characterizes the endogenous tension emerging when compliant execution becomes infeasible. We demonstrate that under this pressure agents exhibit normative drift where they strategically sacrifice safety to preserve utility. Notably we find that advanced reasoning capabilities accelerate this decline as models construct linguistic rationalizations to justify violation. Finally, we analyze the root causes and explore preliminary mitigation strategies, such as pressure isolation, which attempts to restore alignment by decoupling decision-making from pressure signals.
Abstract（参考訳）: 複雑な環境に展開される大規模言語モデルエージェントは、目標達成の最大化と安全性の制約への固執の衝突に頻繁に遭遇する。本稿では,適合実行が不可能になると生じる内因性緊張を特徴付けるエージェント・プレッシャと呼ばれる新しい概念を同定する。この圧力下では、実用性を維持するために安全を戦略的に犠牲にする規範的ドリフトが示される。特に、高度な推論能力は、モデルが違反を正当化するために言語的合理化を構築するので、この減少を加速する。最後に、根本原因を分析し、圧力信号から意思決定を分離してアライメントを回復しようとする圧力分離などの予備緩和戦略を検討する。

関連論文リスト

Asymmetric Goal Drift in Coding Agents Under Value Conflict [0.0]
GPT-5 mini,Haiku 4.5,Grok Code Fast 1は,セキュリティやプライバシといった強固に保持された価値観に対して,システムが非対称なドリフトを示すことを示す。プライバシーのような強固に保持された価値観でさえ、持続的な環境圧力下では非ゼロの違反率を示している。これらの結果から,浅度のコンプライアンスチェックが不十分であり,コメントベースの圧力がモデル値階層を利用してシステムプロンプト命令をオーバーライドできることが判明した。
論文参考訳（メタデータ） (2026-03-03T19:13:12Z)
From Shallow to Deep: Pinning Semantic Intent via Causal GRPO [40.89749712474356]
インテントピンニングを実現するためのフレームワークである Two-Stage Causal-GRPO を提案する。 TSC-GRPOは, 汎用性を保ちつつ, ジェイルブレイク攻撃に対する防御において, ベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2026-03-03T07:02:20Z)
VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文参考訳（メタデータ） (2026-01-09T12:19:49Z)
How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文参考訳（メタデータ） (2025-11-11T17:27:27Z)
When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。 LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文参考訳（メタデータ） (2025-10-24T09:32:25Z)
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文参考訳（メタデータ） (2025-10-07T15:32:59Z)
Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文参考訳（メタデータ） (2025-09-29T07:41:09Z)
AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文参考訳（メタデータ） (2025-09-29T04:27:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。