論文の概要: Libra: Large Chinese-based Safeguard for AI Content
- arxiv url: http://arxiv.org/abs/2507.21929v1
- Date: Tue, 29 Jul 2025 15:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.570342
- Title: Libra: Large Chinese-based Safeguard for AI Content
- Title(参考訳): Libra: 大規模な中国拠点のAIコンテンツ保護
- Authors: Ziyang Chen, Huimu Yu, Xing Wu, Dongqin Liu, Songlin Hu,
- Abstract要約: 大規模言語モデル(LLM)はテキストの理解と生成に優れるが、高度なアプリケーションでは安全性と倫理上の懸念を生じさせる。
我々は,中国のLLMの安全性を高めるために,最先端の安全保護システムであるLibra-Guardを紹介する。
また,中国コンテンツに対するセーフガードシステムの有効性を評価するために設計された最初のベンチマークであるLibra-Testを紹介する。
- 参考スコア(独自算出の注目度): 25.10798349240114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in text understanding and generation but raise significant safety and ethical concerns in high-stakes applications. To mitigate these risks, we present Libra-Guard, a cutting-edge safeguard system designed to enhance the safety of Chinese-based LLMs. Leveraging a two-stage curriculum training pipeline, Libra-Guard enhances data efficiency by employing guard pretraining on synthetic samples, followed by fine-tuning on high-quality, real-world data, thereby significantly reducing reliance on manual annotations. To enable rigorous safety evaluations, we also introduce Libra-Test, the first benchmark specifically designed to evaluate the effectiveness of safeguard systems for Chinese content. It covers seven critical harm scenarios and includes over 5,700 samples annotated by domain experts. Experiments show that Libra-Guard achieves 86.79% accuracy, outperforming Qwen2.5-14B-Instruct (74.33%) and ShieldLM-Qwen-14B-Chat (65.69%), and nearing closed-source models like Claude-3.5-Sonnet and GPT-4o. These contributions establish a robust framework for advancing the safety governance of Chinese LLMs and represent a tentative step toward developing safer, more reliable Chinese AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキストの理解と生成に優れるが、高度なアプリケーションでは安全性と倫理上の懸念を生じさせる。
これらのリスクを軽減するために,中国製LLMの安全性を高めるために設計された最先端の安全ガードシステムであるLibra-Guardを紹介する。
2段階のカリキュラムトレーニングパイプラインを活用することで、Libra-Guardは、合成サンプルにガードプレトレーニングを採用し、続いて高品質な実世界のデータに微調整することで、データ効率を向上させ、手動アノテーションへの依存を著しく低減する。
また、厳格な安全性評価を可能にするために、中国コンテンツに対するセーフガードシステムの有効性を評価するために設計された最初のベンチマークであるLibra-Testを導入する。
7つの重要な害シナリオをカバーし、ドメインの専門家によって注釈付けされた5,700以上のサンプルを含んでいる。
実験の結果、Libra-Guardの精度は86.79%で、Qwen2.5-14B-Instruct(74.33%)とShieldLM-Qwen-14B-Chat(65.69%)を上回り、Claude-3.5-SonnetやGPT-4oといったクローズドソースモデルに近い。
これらの貢献は、中国のLLMの安全管理を促進するための堅牢な枠組みを確立し、より安全で信頼性の高い中国のAIシステムを開発するための暫定的なステップを表している。
関連論文リスト
- When Developer Aid Becomes Security Debt: A Systematic Analysis of Insecure Behaviors in LLM Coding Agents [1.0923877073891446]
LLMベースのコーディングエージェントは急速にソフトウェア開発にデプロイされているが、そのセキュリティへの影響はよく分かっていない。
我々は,5つの最先端モデルにわたる12,000以上のアクションを解析し,自律型符号化エージェントのシステムセキュリティ評価を行った。
論文 参考訳(メタデータ) (2025-07-12T16:11:07Z) - Noise Injection Systemically Degrades Large Language Model Safety Guardrails [6.841549440317724]
大規模言語モデル(LLM)の安全ガードレールは有害な出力を防ぐ重要な要素である。
本稿では,モデルアクティベーションにノイズを系統的に注入することにより,LLMの安全性向上のロバスト性について検討する。
論文 参考訳(メタデータ) (2025-05-16T01:33:25Z) - Safety Pretraining: Toward the Next Generation of Safe AI [61.2816320807586]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
i)600Bトークンをフィルタするために使用される1万GPT-4ラベルの例に基づいてトレーニングされた安全分類器,(ii)有害なWebデータのテキスト化によって生成された,これまでで最大の合成安全データセット,(iv)安全でないコンテンツのフラグ付けのために事前トレーニング中に注入されたハームフルネス・タグアノテーション。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - aiXamine: Simplified LLM Safety and Security [7.933485586826888]
安全とセキュリティのための総合的なブラックボックス評価プラットフォームであるaiXamineについて紹介する。
AiXamineは40以上のテスト(ベンチマーク)を、特定の安全性とセキュリティをターゲットとした8つの重要なサービスに統合する。
プラットフォームは、評価結果をモデル毎の1つの詳細なレポートに集約し、モデルパフォーマンス、テスト例、リッチな視覚化を提供する。
論文 参考訳(メタデータ) (2025-04-21T09:26:05Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。