Fugu-MT 論文翻訳(概要): ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models

論文の概要: ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models

arxiv url: http://arxiv.org/abs/2310.09624v2
Date: Sat, 11 Nov 2023 05:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 20:14:46.021855
Title: ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models
Title（参考訳）: assert: 大規模言語モデルのロバスト性評価のための自動安全シナリオred teaming
Authors: Alex Mei, Sharon Levy, William Yang Wang
Abstract要約: ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
参考スコア（独自算出の注目度）: 65.79770974145983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models are integrated into society, robustness toward a suite of prompts is increasingly important to maintain reliability in a high-variance environment.Robustness evaluations must comprehensively encapsulate the various settings in which a user may invoke an intelligent system. This paper proposes ASSERT, Automated Safety Scenario Red Teaming, consisting of three methods -- semantically aligned augmentation, target bootstrapping, and adversarial knowledge injection. For robust safety evaluation, we apply these methods in the critical domain of AI safety to algorithmically generate a test suite of prompts covering diverse robustness settings -- semantic equivalence, related scenarios, and adversarial. We partition our prompts into four safety domains for a fine-grained analysis of how the domain affects model performance. Despite dedicated safeguards in existing state-of-the-art models, we find statistically significant performance differences of up to 11% in absolute classification accuracy among semantically related scenarios and error rates of up to 19% absolute error in zero-shot adversarial settings, raising concerns for users' physical safety.
Abstract（参考訳）: 大規模言語モデルが社会へ統合されるにつれ,高分散環境において信頼性を維持する上で,一組のプロンプトに対する堅牢性がますます重要になってきており,利用者がインテリジェントシステムを呼び出す様々な設定を包括的にカプセル化する必要がある。本稿では,ASSERT(Automated Safety Scenario Red Teaming)を提案する。3つの手法 – セマンティックアライメント,ターゲットブートストラップ,対人的知識注入 – から構成される。堅牢な安全性評価のために,これらの手法をAI安全の重要な領域に適用し,多種多様なロバスト性設定,関連するシナリオ,敵対的シナリオを含むテストスイートをアルゴリズム的に生成する。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能に与える影響を詳細に分析する。既存の最先端モデルでは特に安全対策を講じているが,意味的関連シナリオにおける絶対的分類精度の最大11%,ゼロショットの敵意設定では最大19%の絶対エラー率の統計的に有意な性能差が見出され,ユーザの身体的安全性への懸念が高まった。

関連論文リスト

Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。 19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文参考訳（メタデータ） (2025-05-26T08:49:19Z)
SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。 AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T10:56:06Z)
A Domain-Agnostic Scalable AI Safety Ensuring Framework [8.086635708001166]
AIの安全性に対する現在のアプローチは、通常、ドメイン固有の安全性条件に対処する。我々は,AIシステムがユーザ定義制約に適合することを確実にする,新しいAI安全フレームワークを提案する。様々な分野の実験を通して、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2025-04-29T16:38:35Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文参考訳（メタデータ） (2024-11-20T10:41:23Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文参考訳（メタデータ） (2024-04-25T09:37:44Z)
Dynamic Vulnerability Criticality Calculator for Industrial Control Systems [0.0]
本稿では,動的脆弱性臨界計算機を提案する革新的な手法を提案する。本手法は, 環境トポロジの分析と, 展開されたセキュリティ機構の有効性を包含する。本手法では,これらの要因を総合的なファジィ認知マップモデルに統合し,攻撃経路を組み込んで全体の脆弱性スコアを総合的に評価する。
論文参考訳（メタデータ） (2024-03-20T09:48:47Z)
Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文参考訳（メタデータ） (2023-11-07T16:50:33Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)
Distributional Instance Segmentation: Modeling Uncertainty and High Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文参考訳（メタデータ） (2023-05-03T05:57:29Z)
Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文参考訳（メタデータ） (2021-01-28T16:38:26Z)
Multimodal Safety-Critical Scenarios Generation for Decision-Making Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文参考訳（メタデータ） (2020-09-16T15:16:43Z)
A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文参考訳（メタデータ） (2020-06-19T13:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。