論文の概要: CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for
Chinese Public Security Domain
- arxiv url: http://arxiv.org/abs/2402.07234v2
- Date: Sun, 3 Mar 2024 01:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:25:25.480136
- Title: CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for
Chinese Public Security Domain
- Title(参考訳): CPSDBench:中国の公開セキュリティドメインのための大規模言語モデル評価ベンチマークとベースライン
- Authors: Xin Tong, Bo Jin, Zhi Lin, Binjun Wang, Ting Yu and Qiang Cheng
- Abstract要約: 本研究は,中国の公安ドメインであるCPSDbenchに合わせた,特別な評価ベンチマークを構築することを目的とする。
CPSDbenchは、現実世界のシナリオから収集されたパブリックセキュリティに関連するデータセットを統合する。
本研究では,公共の安全に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。
- 参考スコア(独自算出の注目度): 23.126406158503684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant potential and
effectiveness across multiple application domains. To assess the performance of
mainstream LLMs in public security tasks, this study aims to construct a
specialized evaluation benchmark tailored to the Chinese public security
domain--CPSDbench. CPSDbench integrates datasets related to public security
collected from real-world scenarios, supporting a comprehensive assessment of
LLMs across four key dimensions: text classification, information extraction,
question answering, and text generation. Furthermore, this study introduces a
set of innovative evaluation metrics designed to more precisely quantify the
efficacy of LLMs in executing tasks related to public security. Through the
in-depth analysis and evaluation conducted in this research, we not only
enhance our understanding of the performance strengths and limitations of
existing models in addressing public security issues but also provide
references for the future development of more accurate and customized LLM
models targeted at applications in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のアプリケーションドメインにまたがる大きな可能性と効果を示している。
公安業務におけるLLMの性能を評価するため,中国公安ドメイン-CPSDbenchに合わせた特別評価ベンチマークを構築することを目的とした。
CPSDbenchは、現実のシナリオから収集された公開セキュリティに関連するデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成の4つの主要な側面にわたるLCMの包括的な評価をサポートする。
さらに,公安に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。
本研究は,本研究で実施した詳細な分析と評価を通じて,セキュリティ問題に対する既存モデルのパフォーマンスの強みと限界の理解を深めるだけでなく,この分野のアプリケーションを対象としたより正確でカスタマイズされたllmモデルの将来の発展に向けた参考となるものを提供する。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety [37.07970624135514]
OpenEvalは、能力、アライメント、安全性にわたって中国のLLMをベンチマークする評価テストベッドである。
機能評価には,NLPタスク,ディシプリナリーナレッジ,コモンセンス推論,数学的推論という4つのサブディメンジョンから中国語LLMを評価するための12のベンチマークデータセットを含む。
アライメントアライメントアセスメントのために、OpenEvalには、中国のLLMが出力するバイアス、攻撃性、不正性を調べる7つのデータセットが含まれている。
論文 参考訳(メタデータ) (2024-03-18T23:21:37Z) - Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。
複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。
LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文 参考訳(メタデータ) (2024-02-28T01:32:58Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Security and Privacy Challenges of Large Language Models: A Survey [2.9480813253164535]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。
これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。
この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文 参考訳(メタデータ) (2024-01-30T04:00:54Z) - Leveraging Large Language Models for NLG Evaluation: A Survey [56.21534358429998]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。
この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Evaluating Large Language Models: A Comprehensive Survey [41.64914110226901]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。
プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。
LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密で包括的な評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-10-30T17:00:52Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。