論文の概要: Testing Language Model Agents Safely in the Wild
- arxiv url: http://arxiv.org/abs/2311.10538v1
- Date: Fri, 17 Nov 2023 14:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 14:44:59.326161
- Title: Testing Language Model Agents Safely in the Wild
- Title(参考訳): 野生の言語モデルエージェントを安全にテストする
- Authors: Silen Naihin, David Atkinson, Marc Green, Merwane Hamadi, Craig Swift,
Douglas Schonholtz, Adam Tauman Kalai, David Bau
- Abstract要約: オープンインターネット上で安全な自律エージェントテストを行うためのフレームワークを提案する。
エージェントアクションは、厳格な安全境界を強制するコンテキスト依存モニターによって監査される。
敵のシミュレーションエージェントを用いて、安全でない状況を特定し、阻止する能力を測定する。
- 参考スコア(独自算出の注目度): 19.507292491433738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prerequisite for safe autonomy-in-the-wild is safe testing-in-the-wild. Yet
real-world autonomous tests face several unique safety challenges, both due to
the possibility of causing harm during a test, as well as the risk of
encountering new unsafe agent behavior through interactions with real-world and
potentially malicious actors. We propose a framework for conducting safe
autonomous agent tests on the open internet: agent actions are audited by a
context-sensitive monitor that enforces a stringent safety boundary to stop an
unsafe test, with suspect behavior ranked and logged to be examined by humans.
We a design a basic safety monitor that is flexible enough to monitor existing
LLM agents, and, using an adversarial simulated agent, we measure its ability
to identify and stop unsafe situations. Then we apply the safety monitor on a
battery of real-world tests of AutoGPT, and we identify several limitations and
challenges that will face the creation of safe in-the-wild tests as autonomous
agents grow more capable.
- Abstract(参考訳): 安全な自己完結のための前提条件は、安全な自己完結テストです。
しかし、現実の自律テストは、テスト中に危害をもたらす可能性があることや、現実世界や潜在的に悪意のあるアクターとの相互作用を通じて、新しい安全でないエージェントの振る舞いに遭遇するリスクなど、いくつかのユニークな安全上の課題に直面している。
我々は,オープンインターネット上で安全な自律エージェントテストを実施するための枠組みを提案する。エージェントアクションは,安全でないテストを止めるために厳密な安全境界を強制するコンテキスト依存モニタによって監査される。
我々は,既存のllmエージェントをモニタするのに十分な柔軟性を有する基本的な安全モニタを設計し,敵のシミュレートエージェントを用いて安全でない状況を識別・停止する能力を測定する。
次に、安全モニターをAutoGPTの実際のテストのバッテリーに適用し、自律エージェントがより有能になるにつれて、安全テストの作成に直面するいくつかの制限と課題を特定します。
関連論文リスト
- MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control [20.796190000442053]
デバイス制御エージェントの安全性を評価するためのベンチマークであるMobileSafetyBenchを紹介する。
メッセージングやバンキングアプリケーションを含む,さまざまなモバイルアプリケーションとのインタラクションに関わる,さまざまなタスクセットを開発します。
実験の結果,現状のLDMをベースとしたベースラインエージェントは,有効なタスクの実行において良好に機能するが,安全タスクでは性能が劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-23T02:51:43Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning [0.0]
本稿では,RLの安全性を高めるために,異常状態列を利用した安全強化学習(RL)手法を提案する。
自動運転車を含む複数の安全クリティカルな環境の実験において、我々のソリューションアプローチはより安全なポリシーをうまく学習する。
論文 参考訳(メタデータ) (2024-07-29T10:30:07Z) - InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback [70.54226917774933]
本稿では,リスク行動が実行される前に,潜在的なエラーを積極的に検出する新しい手法であるInferActを紹介する。
InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。
広く使われている3つのタスクの実験は、InferActの有効性を示している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。