論文の概要: LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
- arxiv url: http://arxiv.org/abs/2511.02366v1
- Date: Tue, 04 Nov 2025 08:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.855894
- Title: LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
- Title(参考訳): LiveSecBench: 中国におけるLLMの動的で文化的なAI安全性ベンチマーク
- Authors: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang,
- Abstract要約: 中国語のLLMアプリケーションシナリオに特化した安全ベンチマークであるLiveSecBenchを提案する。
LiveSecBenchは、中国の法律と社会の枠組みに根ざした6つの重要な次元(レガリティ、倫理、ファクチュアリティ、プライバシ、アドリアロバストネス、推論安全)にわたるモデルを評価する。
現在、LiveSecBenchは18のLLMを評価しており、中国語の文脈でAIの安全性の展望を提供している。
- 参考スコア(独自算出の注目度): 29.121246126112762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose LiveSecBench, a dynamic and continuously updated safety benchmark specifically for Chinese-language LLM application scenarios. LiveSecBench evaluates models across six critical dimensions (Legality, Ethics, Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in the Chinese legal and social frameworks. This benchmark maintains relevance through a dynamic update schedule that incorporates new threat vectors, such as the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs, providing a landscape of AI safety in the context of Chinese language. The leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.
- Abstract(参考訳): 本研究では,中国語LLMアプリケーションシナリオを対象とした動的かつ継続的に更新された安全性ベンチマークであるLiveSecBenchを提案する。
LiveSecBenchは、中国の法と社会の枠組みに根ざした6つの重要な次元(レガリティ、倫理、ファクチュアリティ、プライバシ、敵のロバスト性、推論安全)にわたるモデルを評価する。
このベンチマークは、動的更新スケジュールを通じて関連性を維持しており、次のアップデートでテキスト・ツー・イメージ生成安全とエージェント・セーフが計画されているような新しい脅威ベクトルを組み込む。
現在、LiveSecBench (v251030)は18のLLMを評価しており、中国語の文脈でAIの安全性の展望を提供している。
リーダーボードはhttps://livesecbench.intokentech.cn/.comで公開されている。
関連論文リスト
- Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models [7.020171518136542]
JailBenchは,大規模言語モデル(LLM)の深層脆弱性を評価するための,最初の包括的な中国のベンチマークである。
我々は JailBench 構築に新しい Jailbreak Prompt Engineer (AJPE) フレームワークを採用している。
提案した JailBench は 13 個の LLM に対して広範囲に評価され,ChatGPT に対する攻撃成功率が最も高い。
論文 参考訳(メタデータ) (2025-02-26T08:36:42Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
我々は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語安全ベンチマーク( Chinese safety benchmark, ChineseSafe)を提案する。
ChinaSafeには、4つのクラスに205,034のサンプルと10のサブクラスの安全問題が含まれています。
中国の文脈では、政治的感受性、ポルノグラフィー、変種/ホモフォニックな単語など、いくつかの特別な種類の違法コンテンツを追加します。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。