Fugu-MT 論文翻訳(概要): CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain

論文の概要: CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain

arxiv url: http://arxiv.org/abs/2402.07234v2
Date: Sun, 3 Mar 2024 01:26:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 23:25:25.480136
Title: CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain
Title（参考訳）: CPSDBench:中国の公開セキュリティドメインのための大規模言語モデル評価ベンチマークとベースライン
Authors: Xin Tong, Bo Jin, Zhi Lin, Binjun Wang, Ting Yu and Qiang Cheng
Abstract要約: 本研究は,中国の公安ドメインであるCPSDbenchに合わせた,特別な評価ベンチマークを構築することを目的とする。 CPSDbenchは、現実世界のシナリオから収集されたパブリックセキュリティに関連するデータセットを統合する。本研究では,公共の安全に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。
参考スコア（独自算出の注目度）: 23.126406158503684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated significant potential and effectiveness across multiple application domains. To assess the performance of mainstream LLMs in public security tasks, this study aims to construct a specialized evaluation benchmark tailored to the Chinese public security domain--CPSDbench. CPSDbench integrates datasets related to public security collected from real-world scenarios, supporting a comprehensive assessment of LLMs across four key dimensions: text classification, information extraction, question answering, and text generation. Furthermore, this study introduces a set of innovative evaluation metrics designed to more precisely quantify the efficacy of LLMs in executing tasks related to public security. Through the in-depth analysis and evaluation conducted in this research, we not only enhance our understanding of the performance strengths and limitations of existing models in addressing public security issues but also provide references for the future development of more accurate and customized LLM models targeted at applications in this field.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複数のアプリケーションドメインにまたがる大きな可能性と効果を示している。公安業務におけるLLMの性能を評価するため,中国公安ドメイン-CPSDbenchに合わせた特別評価ベンチマークを構築することを目的とした。 CPSDbenchは、現実のシナリオから収集された公開セキュリティに関連するデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成の4つの主要な側面にわたるLCMの包括的な評価をサポートする。さらに,公安に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。本研究は,本研究で実施した詳細な分析と評価を通じて,セキュリティ問題に対する既存モデルのパフォーマンスの強みと限界の理解を深めるだけでなく,この分野のアプリケーションを対象としたより正確でカスタマイズされたllmモデルの将来の発展に向けた参考となるものを提供する。

関連論文リスト

The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。 LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
LalaEval: A Holistic Human Evaluation Framework for Domain-Specific Large Language Models [6.002286552369069]
LalaEvalは、特定のドメイン内で標準化された人間の評価を行うための体系的な方法論を提供することによって、重要な研究ギャップを埋めることを目指している。本稿では,ロジスティクス業界におけるフレームワークの適用例を示す。
論文参考訳（メタデータ） (2024-08-23T19:12:45Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。 LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文参考訳（メタデータ） (2024-02-28T01:32:58Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Security and Privacy Challenges of Large Language Models: A Survey [2.6986500640871482]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文参考訳（メタデータ） (2024-01-30T04:00:54Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
Walking a Tightrope -- Evaluating Large Language Models in High-Risk Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文参考訳（メタデータ） (2023-11-25T08:58:07Z)
Evaluating Large Language Models: A Comprehensive Survey [41.64914110226901]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。 LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密で包括的な評価を行うことが不可欠である。
論文参考訳（メタデータ） (2023-10-30T17:00:52Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。