論文の概要: Arabic Dataset for LLM Safeguard Evaluation
- arxiv url: http://arxiv.org/abs/2410.17040v1
- Date: Tue, 22 Oct 2024 14:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:40.614542
- Title: Arabic Dataset for LLM Safeguard Evaluation
- Title(参考訳): LLMセーフガード評価のためのアラビアデータセット
- Authors: Yasser Ashraf, Yuxia Wang, Bin Gu, Preslav Nakov, Timothy Baldwin,
- Abstract要約: 本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
- 参考スコア(独自算出の注目度): 62.96160492994489
- License:
- Abstract: The growing use of large language models (LLMs) has raised concerns regarding their safety. While many studies have focused on English, the safety of LLMs in Arabic, with its linguistic and cultural complexities, remains under-explored. Here, we aim to bridge this gap. In particular, we present an Arab-region-specific safety evaluation dataset consisting of 5,799 questions, including direct attacks, indirect attacks, and harmless requests with sensitive words, adapted to reflect the socio-cultural context of the Arab world. To uncover the impact of different stances in handling sensitive and controversial topics, we propose a dual-perspective evaluation framework. It assesses the LLM responses from both governmental and opposition viewpoints. Experiments over five leading Arabic-centric and multilingual LLMs reveal substantial disparities in their safety performance. This reinforces the need for culturally specific datasets to ensure the responsible deployment of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の利用の増加は、その安全性に関する懸念を引き起こしている。
多くの研究が英語に焦点を合わせてきたが、アラビア語のLLMの安全性、言語的・文化的複雑さは未調査のままである。
ここでは、このギャップを埋めることを目指しています。
特に,アラブ世界の社会文化的文脈を反映した,直接攻撃,間接攻撃,無害な言葉による要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
重要で議論の多いトピックに対処する上での異なるスタンスの影響を明らかにするために,両視点評価フレームワークを提案する。
LLMの反応は、政府と野党の両方の観点から評価する。
5つの主要なアラビア語中心の多言語 LLM 実験は、安全性の面で大きな違いを示している。
これにより、LDMの責任あるデプロイを保証するために、文化的に特定のデータセットの必要性が強化される。
関連論文リスト
- Guardians of Discourse: Evaluating LLMs on Multilingual Offensive Language Detection [10.129235204880443]
非英語文脈におけるタスクに対する異なるプロンプト言語と拡張翻訳データの影響を評価する。
本稿では, LLMにおける固有バイアスと, センシティブなトピックに関する誤予測におけるデータセットの影響について論じる。
論文 参考訳(メタデータ) (2024-10-21T04:08:16Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English [1.3359598694842185]
マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
論文 参考訳(メタデータ) (2024-09-14T02:21:17Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic [0.0]
AraTrustはアラビア語でLarge Language Models(LLMs)の総合的信頼性ベンチマークである。
GPT-4は最も信頼できるLCMであり、特にAceGPT 7BやJais 13Bといったオープンソースモデルはベンチマークで60%のスコアを得るのに苦労しました。
論文 参考訳(メタデータ) (2024-03-14T00:45:24Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。