論文の概要: Identifying the Risks of LM Agents with an LM-Emulated Sandbox
- arxiv url: http://arxiv.org/abs/2309.15817v1
- Date: Mon, 25 Sep 2023 17:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:33:32.993705
- Title: Identifying the Risks of LM Agents with an LM-Emulated Sandbox
- Title(参考訳): LM-Emulated SandboxによるLM剤の危険性の同定
- Authors: Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou,
Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto
- Abstract要約: 言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。
- 参考スコア(独自算出の注目度): 70.83306884808988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Language Model (LM) agents and tool use, exemplified by
applications like ChatGPT Plugins, enable a rich set of capabilities but also
amplify potential risks - such as leaking private data or causing financial
losses. Identifying these risks is labor-intensive, necessitating implementing
the tools, manually setting up the environment for each test scenario, and
finding risky cases. As tools and agents become more complex, the high cost of
testing these agents will make it increasingly difficult to find high-stakes,
long-tailed risks. To address these challenges, we introduce ToolEmu: a
framework that uses an LM to emulate tool execution and enables the testing of
LM agents against a diverse range of tools and scenarios, without manual
instantiation. Alongside the emulator, we develop an LM-based automatic safety
evaluator that examines agent failures and quantifies associated risks. We test
both the tool emulator and evaluator through human evaluation and find that
68.8% of failures identified with ToolEmu would be valid real-world agent
failures. Using our curated initial benchmark consisting of 36 high-stakes
tools and 144 test cases, we provide a quantitative risk analysis of current LM
agents and identify numerous failures with potentially severe outcomes.
Notably, even the safest LM agent exhibits such failures 23.9% of the time
according to our evaluator, underscoring the need to develop safer LM agents
for real-world deployment.
- Abstract(参考訳): chatgptプラグインのようなアプリケーションによって例示される、言語モデル(lm)エージェントとツール使用の最近の進歩は、豊富な機能セットを可能にするだけでなく、プライベートデータの漏洩や財務損失などの潜在的なリスクを増幅する。
これらのリスクを特定するには、ツールの実装、テストシナリオ毎に手動で環境を設定すること、リスクのあるケースを見つける必要がある。
ツールやエージェントの複雑さが増すにつれ、これらのエージェントをテストするコストが高くなると、高いリスクや長いリスクを見つけるのがますます難しくなります。
ツール実行をエミュレートするためにLMを使用するフレームワークであるToolEmuを導入し、手動でインスタンス化することなく、さまざまなツールやシナリオに対してLMエージェントのテストを可能にする。
エミュレータとともに,エージェントの故障を調査し,関連するリスクを定量化するLMベースの自動安全評価器を開発した。
ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。
36個のハイテイクツールと144個のテストケースからなるキュレートされた初期ベンチマークを用いて、現在のLMエージェントの定量的リスク分析を行い、潜在的に深刻な結果を伴う多数の障害を同定する。
特に、最も安全なLMエージェントでさえ23.9%の時間障害を示しており、より安全なLMエージェントの開発の必要性を強調している。
関連論文リスト
- Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting
the Risks and Vulnerabilities [50.31806287390321]
ロボットの動作を操作または誤操作することは容易であり、安全上の危険をもたらす。
我々のデータは、即時攻撃で21.2%、知覚攻撃で30.2%の平均的なパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - How Far Are We from Believable AI Agents? A Framework for Evaluating the
Believability of Human Behavior Simulation [49.1914375451351]
我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。
エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Exploiting Library Vulnerability via Migration Based Automating Test
Generation [16.39796265296833]
ソフトウェア開発において、開発者は既存の機能を実装するのを避けるためにサードパーティのライブラリを幅広く利用する。
脆弱性のエクスプロイトは、公開後に脆弱性を再現するためのコードスニペットとして、豊富な脆弱性関連情報を含んでいる。
本研究は、開発者が依存関係を更新するかどうかを判断する基盤として脆弱性エクスプロイトテストを提供するVESTAと呼ばれる、脆弱性エクスプロイトに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T06:46:45Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [21.304324676865242]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z) - You Don't Need Robust Machine Learning to Manage Adversarial Attack
Risks [31.111554739533663]
機械学習モデルを不規則な予測に変換する能力は驚くべきものだ。
現行の緩和には高いコストが伴い、同時にモデルの精度が低下する。
これは、実際にこれらの攻撃を緩和する方法、運用デプロイメントのリスク、そしてそれらのリスクをどのように管理するか、という視点で行われます。
論文 参考訳(メタデータ) (2023-06-16T16:32:27Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Large Language Models for Code: Security Hardening and Adversarial
Testing [7.315482472726556]
大規模な言語モデル(大規模なLM)は、大規模なベクトルで訓練され、コードを生成するのに使われている。
本研究は, (i) セキュアコード生成におけるLMの信頼性向上を目的としたセキュリティ強化, (ii) 敵検定, (ii) 敵検定, 敵検定の2つの重要な軸に沿ったLMのセキュリティについて検討する。
論文 参考訳(メタデータ) (2023-02-10T15:28:55Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。