Fugu-MT 論文翻訳(概要): Identifying the Risks of LM Agents with an LM-Emulated Sandbox

論文の概要: Identifying the Risks of LM Agents with an LM-Emulated Sandbox

arxiv url: http://arxiv.org/abs/2309.15817v1
Date: Mon, 25 Sep 2023 17:08:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 12:33:32.993705
Title: Identifying the Risks of LM Agents with an LM-Emulated Sandbox
Title（参考訳）: LM-Emulated SandboxによるLM剤の危険性の同定
Authors: Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto
Abstract要約: 言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。
参考スコア（独自算出の注目度）: 70.83306884808988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in Language Model (LM) agents and tool use, exemplified by applications like ChatGPT Plugins, enable a rich set of capabilities but also amplify potential risks - such as leaking private data or causing financial losses. Identifying these risks is labor-intensive, necessitating implementing the tools, manually setting up the environment for each test scenario, and finding risky cases. As tools and agents become more complex, the high cost of testing these agents will make it increasingly difficult to find high-stakes, long-tailed risks. To address these challenges, we introduce ToolEmu: a framework that uses an LM to emulate tool execution and enables the testing of LM agents against a diverse range of tools and scenarios, without manual instantiation. Alongside the emulator, we develop an LM-based automatic safety evaluator that examines agent failures and quantifies associated risks. We test both the tool emulator and evaluator through human evaluation and find that 68.8% of failures identified with ToolEmu would be valid real-world agent failures. Using our curated initial benchmark consisting of 36 high-stakes tools and 144 test cases, we provide a quantitative risk analysis of current LM agents and identify numerous failures with potentially severe outcomes. Notably, even the safest LM agent exhibits such failures 23.9% of the time according to our evaluator, underscoring the need to develop safer LM agents for real-world deployment.
Abstract（参考訳）: chatgptプラグインのようなアプリケーションによって例示される、言語モデル(lm)エージェントとツール使用の最近の進歩は、豊富な機能セットを可能にするだけでなく、プライベートデータの漏洩や財務損失などの潜在的なリスクを増幅する。これらのリスクを特定するには、ツールの実装、テストシナリオ毎に手動で環境を設定すること、リスクのあるケースを見つける必要がある。ツールやエージェントの複雑さが増すにつれ、これらのエージェントをテストするコストが高くなると、高いリスクや長いリスクを見つけるのがますます難しくなります。ツール実行をエミュレートするためにLMを使用するフレームワークであるToolEmuを導入し、手動でインスタンス化することなく、さまざまなツールやシナリオに対してLMエージェントのテストを可能にする。エミュレータとともに,エージェントの故障を調査し,関連するリスクを定量化するLMベースの自動安全評価器を開発した。ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。 36個のハイテイクツールと144個のテストケースからなるキュレートされた初期ベンチマークを用いて、現在のLMエージェントの定量的リスク分析を行い、潜在的に深刻な結果を伴う多数の障害を同定する。特に、最も安全なLMエージェントでさえ23.9%の時間障害を示しており、より安全なLMエージェントの開発の必要性を強調している。

関連論文リスト

ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。 LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文参考訳（メタデータ） (2026-02-02T06:33:22Z)
AgenTRIM: Tool Risk Mitigation for Agentic AI [5.4672006013914975]
ツール駆動型エージェントリスクの検出と緩和のためのフレームワークであるAgenTRIMを紹介する。 AgenTRIMは、これらのリスクに相補的なオフラインおよびオンラインフェーズを通じて対処する。 AgenTRIMは、高いタスク性能を維持しながら、攻撃成功を大幅に削減する。
論文参考訳（メタデータ） (2026-01-18T15:10:18Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
More Vulnerable than You Think: On the Stability of Tool-Integrated LLM Agents [24.84276066855418]
本研究では,ツール実行プロセス全体を通して,エージェントがエラーに対して脆弱であるかどうかを検討する。エージェントは各段階でエラーの影響を受けやすく,オープンソースモデルに基づくエージェントは,プロプライエタリモデルに基づくエージェントよりも脆弱である。
論文参考訳（メタデータ） (2025-06-27T07:13:29Z)
AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。 SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文参考訳（メタデータ） (2025-06-17T16:37:35Z)
Les Dissonances: Cross-Tool Harvesting and Polluting in Multi-Tool Empowered LLM Agents [15.15485816037418]
本稿では,マルチツール対応LLMエージェントにおけるタスク制御フローのシステマティックセキュリティ解析について述べる。複数の攻撃ベクトルを含む新しい脅威であるクロスツールハーベスティングとポリッティング(XTHP)を同定する。この脅威の影響を理解するために,我々は,XTHP攻撃を受けやすい現実世界のエージェントツールを自動的に検出する動的スキャンツールであるChordを開発した。
論文参考訳（メタデータ） (2025-04-04T01:41:06Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。 LLMをベースとしたエージェントの6つの重要な特徴を概説する。 4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文参考訳（メタデータ） (2024-11-14T15:40:04Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文参考訳（メタデータ） (2024-07-30T14:35:31Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
You Don't Need Robust Machine Learning to Manage Adversarial Attack Risks [31.111554739533663]
機械学習モデルを不規則な予測に変換する能力は驚くべきものだ。現行の緩和には高いコストが伴い、同時にモデルの精度が低下する。これは、実際にこれらの攻撃を緩和する方法、運用デプロイメントのリスク、そしてそれらのリスクをどのように管理するか、という視点で行われます。
論文参考訳（メタデータ） (2023-06-16T16:32:27Z)
Large Language Models for Code: Security Hardening and Adversarial Testing [6.19238492410992]
大規模な言語モデル(大規模なLM)は、大規模なベクトルで訓練され、コードを生成するのに使われている。本研究は, (i) セキュアコード生成におけるLMの信頼性向上を目的としたセキュリティ強化, (ii) 敵検定, (ii) 敵検定, 敵検定の2つの重要な軸に沿ったLMのセキュリティについて検討する。
論文参考訳（メタデータ） (2023-02-10T15:28:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。