論文の概要: When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents
- arxiv url: http://arxiv.org/abs/2512.02445v1
- Date: Tue, 02 Dec 2025 06:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.740028
- Title: When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents
- Title(参考訳): 失敗の時--長期LLMエージェントの不安定な安全メカニズム
- Authors: Tsimur Hadeliya, Mohammad Ali Jauhar, Nidhi Sakpal, Diogo Cruz,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な問題を解決するために、はるかに長いコンテキストウィンドウ上で動作します。
LLMエージェントはコンテキストの長さ,タイプ,配置に敏感であり,タスク性能の予期せぬ変化を示し,有害な要求の実行を拒否する可能性がある。
我々の研究は、より長いコンテキストで動作するエージェントの潜在的な安全性の問題を示し、長いマルチステップタスクにおいてLLMエージェントの安全性を評価するための現在のメトリクスとパラダイムに関する追加の質問を開きます。
- 参考スコア(独自算出の注目度): 0.04666493857924358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complex or long-horizon problems often requires large language models (LLMs) to use external tools and operate over a significantly longer context window. New LLMs enable longer context windows and support tool calling capabilities. Prior works have focused mainly on evaluation of LLMs on long-context prompts, leaving agentic setup relatively unexplored, both from capability and safety perspectives. Our work addresses this gap. We find that LLM agents could be sensitive to length, type, and placement of the context, exhibiting unexpected and inconsistent shifts in task performance and in refusals to execute harmful requests. Models with 1M-2M token context windows show severe degradation already at 100K tokens, with performance drops exceeding 50\% for both benign and harmful tasks. Refusal rates shift unpredictably: GPT-4.1-nano increases from $\sim$5\% to $\sim$40\% while Grok 4 Fast decreases from $\sim$80\% to $\sim$10\% at 200K tokens. Our work shows potential safety issues with agents operating on longer context and opens additional questions on the current metrics and paradigm for evaluating LLM agent safety on long multi-step tasks. In particular, our results on LLM agents reveal a notable divergence in both capability and safety performance compared to prior evaluations of LLMs on similar criteria.
- Abstract(参考訳): 複雑な問題や長い水平問題の解決には、外部ツールを使用し、はるかに長いコンテキストウインドウを操作するために、大きな言語モデル(LLM)が必要となることが多い。
新しいLLMは、より長いコンテキストウィンドウとサポートツール呼び出しを可能にする。
従来の研究は主にLLMの評価に焦点を合わせており、エージェントのセットアップは、能力と安全性の両方の観点から、比較的未調査のままである。
私たちの仕事はこのギャップに対処する。
LLMエージェントはコンテキストの長さ,タイプ,配置に敏感であり,タスク性能の予期せぬ不整合や,有害な要求の実行を拒否する可能性がある。
1M-2Mトークンコンテキストウィンドウを持つモデルは、すでに100Kトークンで深刻な劣化を示しており、良質なタスクと有害なタスクの両方でパフォーマンス低下は50%以上である。
GPT-4.1-nanoは$\sim$5\%から$\sim$40\%に増加し、Grok 4は$\sim$80\%から$\sim$10\%に減少する。
我々の研究は、より長いコンテキストで動作するエージェントの潜在的な安全性の問題を示し、長いマルチステップタスクにおいてLLMエージェントの安全性を評価するための現在のメトリクスとパラダイムに関する追加の質問を開きます。
特に, LLMエージェントの安全性と性能の相違は, LLMの先行評価と比較すると顕著であった。
関連論文リスト
- Systematic Evaluation of Long-Context LLMs on Financial Concepts [4.299993837670688]
LC LLMの最先端GPT-4スイートの性能評価を行い,課題を段階的に解決する方法について検討した。
LC LLMは, 簡単な作業であっても, より長いコンテキスト長で脆性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-12-19T20:26:55Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Long-context LLMs Struggle with Long In-context Learning [39.84597097614607]
28から174のクラスを持つ6つのデータセットと2Kから50Kトークンの入力長を用いて、極端ラベル分類における長い文脈内学習のベンチマークを導入する。
15個の長文LLMを評価した結果,ラベル空間が小さく,デモンストレーションが短い,難易度が低い分類タスクでうまく機能していることが判明した。
さらなる分析により、後述のラベルに対するバイアスと、複数の情報に対する推論の改善の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T15:59:11Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.0550468465181]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全性のリスクを判定・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。