論文の概要: Adversarial Moral Stress Testing of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.01108v1
- Date: Wed, 01 Apr 2026 16:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.089853
- Title: Adversarial Moral Stress Testing of Large Language Models
- Title(参考訳): 大規模言語モデルの逆モーラルストレステスト
- Authors: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi,
- Abstract要約: 本稿では, 対人多ラウンド相互作用下での倫理的堅牢性を評価するためのストレスベース評価フレームワーク, AMSTを紹介する。
我々は,LLaMA-3-8B,GPT-4o,DeepSeek-v3を含む最先端LLMにおけるAMSTの評価を行った。
- 参考スコア(独自算出の注目度): 6.225703352031606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the ethical robustness of large language models (LLMs) deployed in software systems remains challenging, particularly under sustained adversarial user interaction. Existing safety benchmarks typically rely on single-round evaluations and aggregate metrics, such as toxicity scores and refusal rates, which offer limited visibility into behavioral instability that may arise during realistic multi-turn interactions. As a result, rare but high-impact ethical failures and progressive degradation effects may remain undetected prior to deployment. This paper introduces Adversarial Moral Stress Testing (AMST), a stress-based evaluation framework for assessing ethical robustness under adversarial multi-round interactions. AMST applies structured stress transformations to prompts and evaluates model behavior through distribution-aware robustness metrics that capture variance, tail risk, and temporal behavioral drift across interaction rounds. We evaluate AMST on several state-of-the-art LLMs, including LLaMA-3-8B, GPT-4o, and DeepSeek-v3, using a large set of adversarial scenarios generated under controlled stress conditions. The results demonstrate substantial differences in robustness profiles across models and expose degradation patterns that are not observable under conventional single-round evaluation protocols. In particular, robustness has been shown to depend on distributional stability and tail behavior rather than on average performance alone. Additionally, AMST provides a scalable and model-agnostic stress-testing methodology that enables robustness-aware evaluation and monitoring of LLM-enabled software systems operating in adversarial environments.
- Abstract(参考訳): ソフトウェアシステムに展開する大規模言語モデル(LLM)の倫理的堅牢性を評価することは、特に持続的なユーザインタラクションの下では、依然として困難である。
既存の安全ベンチマークは、通常、毒性スコアや拒絶率などの単一ラウンドの評価と集約のメトリクスに依存しており、現実的なマルチターン相互作用の間に生じる可能性のある行動不安定性の限定的な可視性を提供する。
結果として、稀ではあるが高い影響の倫理的失敗と進歩的な劣化効果は、展開前に検出されないままである。
本稿では, 対人多ラウンド相互作用下での倫理的堅牢性を評価するためのストレスベース評価フレームワーク, AMSTを紹介する。
AMSTは、分散を意識したロバストネスメトリクスを通じて、相互作用ラウンド間の分散、尾のリスク、時間的振る舞いのドリフトを捉えることによって、モデル行動の促進と評価に構造化されたストレス変換を適用する。
我々は,LLaMA-3-8B,GPT-4o,DeepSeek-v3を含む最先端LLMにおけるAMSTの評価を行った。
その結果,従来の単一ラウンド評価プロトコルでは観測不可能な劣化パターンが,モデル間におけるロバスト性プロファイルに大きく差異があることが判明した。
特に、ロバスト性は、平均的な性能のみではなく、分布安定性と尾の挙動に依存することが示されている。
さらに、AMSTはスケーラブルでモデルに依存しないストレステスト手法を提供し、敵環境で動作するLLM対応ソフトウェアシステムのロバストネスを意識した評価とモニタリングを可能にする。
関連論文リスト
- FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering [11.609466767597093]
FaithSteer-BENCHはストレステストベンチマークである。
制御性, 実用性, 堅牢性の3つのゲートワイド基準により, 固定配置式運転点での操舵方法を評価する。
ゲートワイズベンチマークの結果は、既存の手法がデプロイメント指向の実践的設定において信頼性の高い制御性を提供するとは限らないことを示している。
論文 参考訳(メタデータ) (2026-03-18T22:28:36Z) - ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments [43.08480724370872]
我々は150のマルチターンシナリオを通じて人間とAIの対立を評価するベンチマークであるConflictBenchを紹介した。
ConflictBenchはテキストベースのシミュレーションエンジンと視覚的に接地された世界モデルを統合し,動的条件下でのエージェントの知覚,計画,行動を可能にする。
論文 参考訳(メタデータ) (2026-03-09T06:59:48Z) - Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing [0.0]
信頼性工学にインスパイアされた深度指向評価フレームワークであるAPST(Accelerated Prompt Stress Testing)を紹介する。
APSTは、制御された運用条件下で同じプロンプトを繰り返しサンプリングし、遅延故障モードを発生させる。
同様のベンチマークアライメントスコアを持つモデルでは,繰り返しサンプリングを行うと,経験的失敗率が大きく異なることが判明した。
論文 参考訳(メタデータ) (2026-02-12T10:09:13Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。
これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。
分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2025-07-11T20:58:21Z) - Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。