論文の概要: aiXamine: Simplified LLM Safety and Security
- arxiv url: http://arxiv.org/abs/2504.14985v2
- Date: Wed, 23 Apr 2025 16:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.736031
- Title: aiXamine: Simplified LLM Safety and Security
- Title(参考訳): aiXamine: LLMの安全性とセキュリティの簡易化
- Authors: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil,
- Abstract要約: 安全とセキュリティのための総合的なブラックボックス評価プラットフォームであるaiXamineについて紹介する。
AiXamineは40以上のテスト(ベンチマーク)を、特定の安全性とセキュリティをターゲットとした8つの重要なサービスに統合する。
プラットフォームは、評価結果をモデル毎の1つの詳細なレポートに集約し、モデルパフォーマンス、テスト例、リッチな視覚化を提供する。
- 参考スコア(独自算出の注目度): 7.933485586826888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating Large Language Models (LLMs) for safety and security remains a complex task, often requiring users to navigate a fragmented landscape of ad hoc benchmarks, datasets, metrics, and reporting formats. To address this challenge, we present aiXamine, a comprehensive black-box evaluation platform for LLM safety and security. aiXamine integrates over 40 tests (i.e., benchmarks) organized into eight key services targeting specific dimensions of safety and security: adversarial robustness, code security, fairness and bias, hallucination, model and data privacy, out-of-distribution (OOD) robustness, over-refusal, and safety alignment. The platform aggregates the evaluation results into a single detailed report per model, providing a detailed breakdown of model performance, test examples, and rich visualizations. We used aiXamine to assess over 50 publicly available and proprietary LLMs, conducting over 2K examinations. Our findings reveal notable vulnerabilities in leading models, including susceptibility to adversarial attacks in OpenAI's GPT-4o, biased outputs in xAI's Grok-3, and privacy weaknesses in Google's Gemini 2.0. Additionally, we observe that open-source models can match or exceed proprietary models in specific services such as safety alignment, fairness and bias, and OOD robustness. Finally, we identify trade-offs between distillation strategies, model size, training methods, and architectural choices.
- Abstract(参考訳): 安全性とセキュリティのための大規模言語モデル(LLM)の評価は依然として複雑な作業であり、しばしばアドホックなベンチマーク、データセット、メトリクス、レポートフォーマットの断片化されたランドスケープをナビゲートする必要がある。
この課題に対処するために、LLMの安全性とセキュリティのための総合的なブラックボックス評価プラットフォームであるaiXamineを紹介する。
aiXamineは40以上のテスト(ベンチマーク)を、特定の安全性とセキュリティの次元をターゲットにした8つの重要なサービスに統合する: 敵の堅牢性、コードセキュリティ、公正性とバイアス、幻覚、モデルとデータのプライバシー、アウト・オブ・ディストリビューション(OOD)の堅牢性、過剰な拒絶、安全アライメント。
プラットフォームは、評価結果をモデル毎の1つの詳細なレポートに集約し、モデルパフォーマンス、テスト例、リッチな視覚化の詳細な概要を提供する。
我々は、aiXamineを用いて、50以上の公用およびプロプライエタリなLCMを評価し、2K以上の検査を行った。
この結果から,OpenAIのGPT-4oの攻撃に対する感受性,xAIのGrok-3の出力偏差,GoogleのGemini 2.0のプライバシの弱点など,主要なモデルの重大な脆弱性が明らかになった。
さらに、オープンソースモデルは、安全アライメント、公正さとバイアス、OODロバストネスといった特定のサービスにおいて、プロプライエタリなモデルと一致したり、超えたりできると考えています。
最後に, 蒸留戦略, モデルサイズ, トレーニング方法, アーキテクチャ選択のトレードオフを明らかにする。
関連論文リスト
- REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models [101.70140132374307]
MMFM(Multimodal foundation model)は、自律運転、ヘルスケア、バーチャルアシスタントなど、様々なアプリケーションにおいて重要な役割を果たす。
既存のマルチモーダルモデルのベンチマークは、主にこれらのモデルの有用性を評価するか、公平性やプライバシといった限られた視点にのみフォーカスする。
MMFMの安全性と信頼性を総合的に評価するために,最初の統合プラットフォームMMDT(Multimodal DecodingTrust)を提案する。
論文 参考訳(メタデータ) (2025-03-19T01:59:44Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [39.97454990633856]
本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。
バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。
13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文 参考訳(メタデータ) (2024-06-11T13:41:33Z) - Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。
そこで我々は,新しい特徴を設計し,その信頼性を推定するために,これらの特徴に対する(解釈可能な)モデル(つまりロジスティック回帰)を訓練する,シンプルで汎用的なフレームワークを提案する。
我々は,Flan-ul2,-13b,Mistral-7b,GPT-4の4つのベンチマークQ&Aタスクおよび2つのベンチマーク要約タスクにおけるPegasus-large,BART-largeの信頼性を推定する上で,我々の単純なフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T02:08:44Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。