論文の概要: ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
- arxiv url: http://arxiv.org/abs/2506.10960v1
- Date: Thu, 12 Jun 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.895122
- Title: ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
- Title(参考訳): ChineseHarm-Bench:中国の有害コンテンツ検出ベンチマーク
- Authors: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng,
- Abstract要約: 有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
- 参考スコア(独自算出の注目度): 50.89916747049978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害なコンテンツ検出タスクの自動化、ポリシー違反の特定におけるモデレーターの支援、コンテンツレビューの全体的な効率と正確性の向上にますます応用されている。
しかし、有害なコンテンツ検出のための既存のリソースは、主に英語に焦点を当てており、中国のデータセットは乏しく、スコープが限られていることが多い。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
我々のアノテーションプロセスはさらに、中国の有害コンテンツ検出におけるLSMを支援するために、明確な専門知識を提供する知識ルールベースを提供する。
さらに,人間の注釈付き知識ルールと大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
コードとデータはhttps://github.com/zjunlp/ ChineseHarm-bench.orgで公開されている。
関連論文リスト
- Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs [1.7451266777840306]
大規模言語モデル(LLM)は、Common Crawl、C4、FineWebといった大規模なWebソースデータセットを事前トレーニングに活用して、さまざまな現実世界のアプリケーションに不可欠なものになっている。
このようなフィルタリングされていないデータに対するLCMの訓練は、有害な行動の継続、誤報の拡散、社会的偏見の増幅といったリスクを負う。
本稿では,これらのデータセットにまたがる不適切なコンテンツを大規模に分析し,有害なWebページをその意図に基づいてトピカル・トキシックに分類する包括的分類法を提案する。
論文 参考訳(メタデータ) (2025-05-04T06:37:20Z) - "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
我々は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語安全ベンチマーク( Chinese safety benchmark, ChineseSafe)を提案する。
ChinaSafeには、4つのクラスに205,034のサンプルと10のサブクラスの安全問題が含まれています。
中国の文脈では、政治的感受性、ポルノグラフィー、変種/ホモフォニックな単語など、いくつかの特別な種類の違法コンテンツを追加します。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs [43.1380542830147]
大規模言語モデル(LLM)における言語的・事実的・論理的誤りの訂正を目的とした,中国初の知識編集データセットであるCKnowEditを紹介する。
我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、幅広い情報源から7種類の知識を収集します。
このデータセットを解析することにより、中国語を習得する上で、現在のLLMが直面する課題を強調します。
論文 参考訳(メタデータ) (2024-09-09T17:11:51Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。