Fugu-MT 論文翻訳(概要): MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control

論文の概要: MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control

arxiv url: http://arxiv.org/abs/2410.17520v1
Date: Wed, 23 Oct 2024 02:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.307506
Title: MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control
Title（参考訳）: MobileSafetyBench: モバイルデバイス制御における自律エージェントの安全性の評価
Authors: Juyong Lee, Dongyoon Hahm, June Suk Choi, W. Bradley Knox, Kimin Lee,
Abstract要約: デバイス制御エージェントの安全性を評価するためのベンチマークであるMobileSafetyBenchを紹介する。メッセージングやバンキングアプリケーションを含む,さまざまなモバイルアプリケーションとのインタラクションに関わる,さまざまなタスクセットを開発します。実験の結果,現状のLDMをベースとしたベースラインエージェントは,有効なタスクの実行において良好に機能するが,安全タスクでは性能が劣ることがわかった。
参考スコア（独自算出の注目度）: 20.796190000442053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous agents powered by large language models (LLMs) show promising potential in assistive tasks across various domains, including mobile device control. As these agents interact directly with personal information and device settings, ensuring their safe and reliable behavior is crucial to prevent undesirable outcomes. However, no benchmark exists for standardized evaluation of the safety of mobile device-control agents. In this work, we introduce MobileSafetyBench, a benchmark designed to evaluate the safety of device-control agents within a realistic mobile environment based on Android emulators. We develop a diverse set of tasks involving interactions with various mobile applications, including messaging and banking applications. To clearly evaluate safety apart from general capabilities, we design separate tasks measuring safety and tasks evaluating helpfulness. The safety tasks challenge agents with managing potential risks prevalent in daily life and include tests to evaluate robustness against indirect prompt injections. Our experiments demonstrate that while baseline agents, based on state-of-the-art LLMs, perform well in executing helpful tasks, they show poor performance in safety tasks. To mitigate these safety concerns, we propose a prompting method that encourages agents to prioritize safety considerations. While this method shows promise in promoting safer behaviors, there is still considerable room for improvement to fully earn user trust. This highlights the urgent need for continued research to develop more robust safety mechanisms in mobile environments. We open-source our benchmark at: https://mobilesafetybench.github.io/.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用した自律エージェントは、モバイルデバイス制御を含むさまざまな領域にわたる支援タスクの有望な可能性を示している。これらのエージェントは、個人情報やデバイス設定と直接やりとりするので、安全で信頼性の高い行動を保証することが、望ましくない結果を防ぐために不可欠である。しかし、モバイル機器制御エージェントの安全性の標準化評価のためのベンチマークは存在しない。本研究では,Androidエミュレータを用いた現実的なモバイル環境におけるデバイス制御エージェントの安全性を評価するためのベンチマークであるMobileSafetyBenchを紹介する。メッセージングやバンキングアプリケーションを含む,さまざまなモバイルアプリケーションとのインタラクションに関わる,さまざまなタスクセットを開発します。一般の能力とは別に安全性を明確に評価するために,安全性を計測するタスクと,有用性を評価するタスクを設計する。安全タスクは、日常生活で頻発する潜在的なリスクを管理し、間接的なインジェクションに対する堅牢性を評価するテストを含むエージェントに挑戦する。実験の結果,現状のLDMをベースとしたベースラインエージェントは,有効なタスクの実行において良好に機能するが,安全タスクでは性能が劣ることがわかった。このような安全上の懸念を軽減するため,エージェントが安全上の配慮を優先するように促すプロンプト手法を提案する。この方法では、より安全な行動を促進することを約束するが、ユーザー信頼を得るための改善の余地は十分にある。このことは、モバイル環境においてより堅牢な安全メカニズムを開発するための継続的な研究の必要性を浮き彫りにしている。私たちはベンチマークをhttps://mobilesafetybench.github.io/でオープンソース化しました。

関連論文リスト

Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。その結果,安全性と有効性は共同で最適化できることが示唆された。
論文参考訳（メタデータ） (2025-07-11T02:34:16Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [76.74726258534142]
本稿では,有害な指示を受けるVLMエージェントの安全性を評価するための最初のベンチマークであるProgentSAFEを提案する。 AgentSAFEはシミュレーションサンドボックス内の現実的なエージェントと環境の相互作用をシミュレートする。ベンチマークには、45の敵シナリオ、1,350の有害なタスク、8,100の有害な命令が含まれます。
論文参考訳（メタデータ） (2025-06-17T16:37:35Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。 AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T10:56:06Z)
AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。 AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文参考訳（メタデータ） (2025-02-17T05:12:33Z)
AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration [0.3222802562733787]
AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
論文参考訳（メタデータ） (2025-02-13T23:00:33Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
既存のベンチマークは主に重要な安全リスクを見落とし、パフォーマンスの計画に集中しています。我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを提案する。 SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な、多種多様で高品質なデータセット、(2)低レベルコントローラを備えた普遍的な実施環境であるSafeAgentEnvは、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートし、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法である。
論文参考訳（メタデータ） (2024-12-17T18:55:58Z)
ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
本稿では,企業におけるWebエージェントの安全性と信頼性を評価するためのベンチマークであるST-WebAgentBenchを紹介する。このベンチマークは、セーフで信頼できる(ST)エージェントの振る舞いを定義する詳細なフレームワークに基づいている。我々の評価は、現在のSOTAエージェントが政策遵守に苦慮し、重要なビジネスアプリケーションにはまだ頼っていないことを示している。
論文参考訳（メタデータ） (2024-10-09T09:13:38Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文参考訳（メタデータ） (2024-09-03T10:14:51Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文参考訳（メタデータ） (2024-08-20T17:21:10Z)
InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback [70.54226917774933]
本稿では,リスク行動が実行される前に,潜在的なエラーを積極的に検出する新しい手法であるInferActを紹介する。 InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。広く使われている3つのタスクの実験は、InferActの有効性を示している。
論文参考訳（メタデータ） (2024-07-16T15:24:44Z)
TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文参考訳（メタデータ） (2024-02-02T17:26:23Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Testing Language Model Agents Safely in the Wild [19.507292491433738]
オープンインターネット上で安全な自律エージェントテストを行うためのフレームワークを提案する。エージェントアクションは、厳格な安全境界を強制するコンテキスト依存モニターによって監査される。敵のシミュレーションエージェントを用いて、安全でない状況を特定し、阻止する能力を測定する。
論文参考訳（メタデータ） (2023-11-17T14:06:05Z)
Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。 Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文参考訳（メタデータ） (2023-10-19T08:19:28Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)
Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文参考訳（メタデータ） (2020-06-22T10:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。