論文の概要: Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.16943v1
- Date: Wed, 18 Feb 2026 23:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.507899
- Title: Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents
- Title(参考訳): GAPの考え方: LLMエージェントにおけるテキスト安全性はツールコールセーフティに移行しない
- Authors: Arnold Cartagena, Ariane Teixeira,
- Abstract要約: GAPベンチマークは、LLMエージェントのテキストレベルの安全性とツールレベルの安全性のばらつきを測定する。
我々は,モデルテキスト出力が有害な要求を拒否し,そのツールコールが同時に禁じられたアクションを実行する事例を観察し,GAPメトリックとして形式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models deployed as agents increasingly interact with external systems through tool calls--actions with real-world consequences that text outputs alone do not carry. Safety evaluations, however, overwhelmingly measure text-level refusal behavior, leaving a critical question unanswered: does alignment that suppresses harmful text also suppress harmful actions? We introduce the GAP benchmark, a systematic evaluation framework that measures divergence between text-level safety and tool-call-level safety in LLM agents. We test six frontier models across six regulated domains (pharmaceutical, financial, educational, employment, legal, and infrastructure), seven jailbreak scenarios per domain, three system prompt conditions (neutral, safety-reinforced, and tool-encouraging), and two prompt variants, producing 17,420 analysis-ready datapoints. Our central finding is that text safety does not transfer to tool-call safety. Across all six models, we observe instances where the model's text output refuses a harmful request while its tool calls simultaneously execute the forbidden action--a divergence we formalize as the GAP metric. Even under safety-reinforced system prompts, 219 such cases persist across all six models. System prompt wording exerts substantial influence on tool-call behavior: TC-safe rates span 21 percentage points for the most robust model and 57 for the most prompt-sensitive, with 16 of 18 pairwise ablation comparisons remaining significant after Bonferroni correction. Runtime governance contracts reduce information leakage in all six models but produce no detectable deterrent effect on forbidden tool-call attempts themselves. These results demonstrate that text-only safety evaluations are insufficient for assessing agent behavior and that tool-call safety requires dedicated measurement and mitigation.
- Abstract(参考訳): エージェントとしてデプロイされる大規模言語モデルは、ツールコールを通じて、テキスト出力だけでは持たない現実的な結果に対するアクションを通じて、外部システムと対話するようになっている。
しかし、安全性評価は、テキストレベルの拒絶行動を圧倒的に測定し、重要な疑問を未解決のまま残している:有害なテキストを抑圧するアライメントもまた有害な行為を抑制するのか?
LLMエージェントにおけるテキストレベルの安全性とツールレベルの安全性の相違を計測するシステム評価フレームワークであるGAPベンチマークを導入する。
6つの規制ドメイン(薬品、金融、教育、雇用、法律、インフラ)、ドメインごとのジェイルブレイクシナリオ7つ、システムプロンプト条件(中性、安全強化、ツール環境)3つ、そして2つの迅速なモデルをテストする。
私たちの中心的な発見は、テキストの安全性がツールコールの安全性に移行しないことです。
6つのモデル全体にわたって、モデルのテキスト出力が有害な要求を拒否し、そのツール呼び出しが同時に禁じられたアクションを実行するインスタンスを観察します。
安全強化されたシステムプロンプトの下でも、そのようなケースは6つのモデルにまたがって219のケースが持続する。
TCセーフレートは最も頑健なモデルでは21ポイント、最も刺激に敏感なモデルでは57ポイントであり、ボンフェロニ補正後の18対のアブレーション比較は有意である。
実行時のガバナンス契約は、6つのモデルすべてにおいて情報漏洩を減らすが、ツールコール自体が禁止されていることに対する検出可能な抑止効果は生じない。
これらの結果から,テキストのみの安全性評価はエージェントの挙動を評価するには不十分であり,ツールコールの安全性には専用の測定と緩和が必要であることが示唆された。
関連論文リスト
- ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - GSAE: Graph-Regularized Sparse Autoencoders for Robust LLM Safety Steering [5.124731939041066]
大規模言語モデル(LLM)は、敵のプロンプトやジェイルブレイク攻撃を通じて有害なコンテンツを生成するように操作できるため、重要な安全上の課題に直面している。
グラフ正規化スパースオートエンコーダ (GSAE) を導入し, ニューロン共活性化グラフ上にラプラシアンスムーズネスペナルティを持つSAEを拡張した。
GSAEは, 効果的な安全ステアリング, 特徴を重み付けした安全関連方向に組み立て, 2段階のゲーティング機構で制御できることを実証した。
論文 参考訳(メタデータ) (2025-12-07T04:46:30Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。