論文の概要: History Anchors: How Prior Behavior Steers LLM Decisions Toward Unsafe Actions
- arxiv url: http://arxiv.org/abs/2605.13825v1
- Date: Wed, 13 May 2026 17:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.216417
- Title: History Anchors: How Prior Behavior Steers LLM Decisions Toward Unsafe Actions
- Title(参考訳): ヒストリーアンカー:LLMが安全でない行動にどう対処するか
- Authors: Alberto G. Rodríguez Salgado,
- Abstract要約: HistoryAnchor-100、100の短いシナリオを10のハイテイクドメインで構築します。
最強のアライメントモデルはほとんど安全でないことはほとんどありませんが、"以前の歴史に示された戦略と整合した"という1つの追加文で、91-98%に跳ね返っています。
アクションラベルの置換はエフェクトをそのまま残し、すべてのセーフな事前履歴を持つ同じ命令は、安全でないレートを7%以下に保っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier LLMs are increasingly deployed as agents that pick the next action after a long log of prior tool calls produced by the same or a different model. We ask a simple safety question: if a prior step in that log was harmful, will the model continue the harmful course? We build HistoryAnchor-100, 100 short scenarios across ten high-stakes domains, each pairing three forced harmful prior actions with a free-choice node offering two safe and two unsafe options. Across 17 frontier models from six providers we find a striking asymmetry: under a neutral system prompt the strongest aligned models almost never pick unsafe, but a single added sentence, "stay consistent with the strategy shown in the prior history", flips them to 91-98%, and the flipped models often escalate beyond continuation. Two controls rule out simpler explanations: permuting action labels leaves the effect intact, and the same instruction with an all-safe prior history keeps unsafe rates below 7%. Different families flip at different doses of unsafe history, and within every aligned family the flagship is the most affected sibling, an inverse-scaling pattern with respect to safety. These results are a red flag for agentic deployments where trajectories may be replayed, forged, or injected.
- Abstract(参考訳): Frontier LLMは、同じまたは別のモデルによって生成される以前のツールコールの長いログの後、次のアクションを選択するエージェントとして、ますますデプロイされる。
そのログの事前ステップが有害であった場合、モデルは有害なコースを継続するのか?
HistoryAnchor-100、100の短いシナリオを10のハイテイクドメインで構築し、それぞれが2つの安全と2つの安全でないオプションを提供するフリーチョイスノードで3つの有害な事前アクションをペアリングします。
中立なシステムの下では、最強のアライメントモデルはほとんど安全ではないが、"以前の歴史に示された戦略と一致している"という単一の文が、91-98%に反転し、フリップされたモデルは継続を超えてエスカレートすることが多い。
アクションラベルの置換はエフェクトをそのまま残し、すべてのセーフな事前履歴を持つ同じ命令は、安全でないレートを7%以下に保っている。
異なる家族は異なる種類の安全でない歴史を振り返り、すべての家族の中で旗艦は最も影響を受けている兄弟姉妹であり、安全に関する逆スケーリングパターンである。
これらの結果はエージェントデプロイメントのための赤いフラグで、トラジェクトリを再生、偽造、または注入することができる。
関連論文リスト
- Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents [73.69976712292681]
電話使用エージェントが危害を免れた場合、安全を示すか、単に行動できないか?
有害な結果は、エージェントがリスクを認識して安全なアクションを選択したり、スクリーンを理解したり、関連するアクションを全く実行できなかったりすることで回避される。
私たちはPhoneSafetyでこの問題に対処しています。これは130以上のアプリにわたる実際の電話インタラクションから引き出された700の安全クリティカルな瞬間のベンチマークです。
論文 参考訳(メタデータ) (2026-05-08T11:58:57Z) - Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use [6.622648583261088]
エージェント言語モデルは、単一のミスステップが不可逆的な害を引き起こす可能性のあるロングホライゾンアクションを計画、呼び出し、実行しなければなりません。
安全判断を明確化し,学習可能にすることで,エージェントを安全なマルチステップツール使用に整合させるフレームワークであるMOSAICを紹介する。
以上の結果から,MOSAICは有害行為を最大50%減らし,インジェクション攻撃で20%以上減らし,プライバシリークを減らし,良質なタスク性能を保ち,改善することを示した。
論文 参考訳(メタデータ) (2026-03-03T17:59:35Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。