論文の概要: The Causal Impact of Tool Affordance on Safety Alignment in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.20320v1
- Date: Thu, 19 Mar 2026 23:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.83568
- Title: The Causal Impact of Tool Affordance on Safety Alignment in LLM Agents
- Title(参考訳): LLM剤の安全アライメントに及ぼす工具使用量の影響
- Authors: Shasha Yu, Fiona Carroll, Barry L. Bentley,
- Abstract要約: 本研究は,大規模言語モデル(LLM)の安全アライメントがいかに変化するかを実証的に検証する。
決定論的金融取引環境において、1500シナリオにわたる二元的安全制約を伴う実験を行う。
どちらのモデルも、テキストのみの設定では完全なコンプライアンスを維持しているが、ツールアクセスが導入されると、違反が大幅に増加する。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed as agents with access to executable tools, enabling direct interaction with external systems. However, most safety evaluations remain text-centric and assume that compliant language implies safe behavior, an assumption that becomes unreliable once models are allowed to act. In this work, we empirically examine how executable tool affordance alters safety alignment in LLM agents using a paired evaluation framework that compares text-only chatbot behavior with tool-enabled agent behavior under identical prompts and policies. Experiments are conducted in a deterministic financial transaction environment with binary safety constraints across 1,500 procedurally generated scenarios. To separate intent from outcome, we distinguish between attempted and realized violations using dual enforcement regimes that either block or permit unsafe actions. Both evaluated models maintain perfect compliance in text-only settings, yet exhibit sharp increases in violations after tool access is introduced, reaching rates up to 85% despite unchanged rules. We observe substantial gaps between attempted and executed violations, indicating that external guardrails can suppress visible harm while masking persistent misalignment. Agents also develop spontaneous constraint circumvention strategies without adversarial prompting. These results demonstrate that tool affordance acts as a primary driver of safety misalignment and that text-based evaluation alone is insufficient for assessing agentic systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、実行可能ツールにアクセスするエージェントとしてますます多くデプロイされ、外部システムとの直接対話を可能にしている。
しかし、ほとんどの安全性評価はテキスト中心であり、従順な言語が安全な行動を示すと仮定する。
本研究では,テキストのみのチャットボット動作とツール対応エージェント動作を同一のプロンプトとポリシーの下で比較したペア評価フレームワークを用いて,LCMエージェントの安全アライメントがいかに変化するかを実証的に検討する。
決定論的金融取引環境において、1500の手続き的に生成されたシナリオに二元的安全性の制約が課される実験を行う。
結果から意図を分離するために、安全でない行為をブロックまたは許可する二重執行制度を用いて、試みられたものと実現された違反を区別する。
どちらのモデルも、テキストのみの設定では完全なコンプライアンスを維持しているが、ツールアクセスが導入されると、違反が大幅に増加し、ルールが変更されていないにもかかわらず、最大85%のレートに達する。
本研究は,外部ガードレールが持続的不整合を隠蔽しながら,目に見える害を抑えることができることを示す。
エージェントはまた、敵のプロンプトを伴わない自発的な制約回避戦略を発達させる。
これらの結果から,ツール・アプライアンスは安全性の悪用の主要な要因であり,テキストによる評価だけではエージェント・システムの評価には不十分であることが示唆された。
関連論文リスト
- Who Tests the Testers? Systematic Enumeration and Coverage Audit of LLM Agent Tool Call Safety [32.40159096400358]
大規模言語モデル(LLM)エージェントは、テキスト生成のみではなく、ツールコールに安全を集中させる外部ツールを通じて、ますます機能するようになっている。
最近のベンチマークでは、さまざまな環境やリスクカテゴリにまたがるエージェントを評価しているが、根本的な疑問は解決されていない。
まず、有効なツールコールと多様なユーザシナリオを列挙して、テストケースを体系的に生成する列挙子。次に、非セマンティックで定量的な尺度であるルール耐性を導入する。
論文 参考訳(メタデータ) (2026-03-18T20:06:47Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents [0.0]
GAPベンチマークは、LLMエージェントのテキストレベルの安全性とツールレベルの安全性のばらつきを測定する。
我々は,モデルテキスト出力が有害な要求を拒否し,そのツールコールが同時に禁じられたアクションを実行する事例を観察し,GAPメトリックとして形式化する。
論文 参考訳(メタデータ) (2026-02-18T23:17:15Z) - A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.1549110891026]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (2026-02-16T00:33:02Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - Drift-Bench: Diagnosing Cooperative Breakdowns in LLM Agents under Input Faults via Multi-Turn Interaction [20.610305266852638]
textbfDrift-Benchは、入力故障下でエージェントの実用性を評価する最初の診断ベンチマークである。
方法ブリッジは、安全でない実行に繋がる障害の体系的な診断を可能にする、明確化研究とエージェントの安全性評価を橋渡しする。
論文 参考訳(メタデータ) (2026-02-02T18:46:16Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。