論文の概要: ELAB: Extensive LLM Alignment Benchmark in Persian Language
- arxiv url: http://arxiv.org/abs/2504.12553v1
- Date: Thu, 17 Apr 2025 00:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:21.979772
- Title: ELAB: Extensive LLM Alignment Benchmark in Persian Language
- Title(参考訳): ELAB:ペルシア語のLLMアライメントベンチマーク
- Authors: Zahra Pourbahman, Fatemeh Rajabi, Mohammadhossein Sadeghi, Omid Ghahroodi, Somaye Bakhshaei, Arash Amini, Reza Kazemi, Mahdieh Soleymani Baghshah,
- Abstract要約: 本稿では,ペルシア語大言語モデルを批判的倫理的次元に整合させるための包括的評価枠組みを提案する。
ペルシャ語と文化の文脈に適応することで、既存のLLM評価フレームワークのギャップに対処する。
このベンチマークは、 (i) 翻訳データ、 (ii) 合成によって生成された新しいデータ、 (iii) 自然収集された新しいデータという3つのタイプのペルシア語ベンチマークを生成する。
- 参考スコア(独自算出の注目度): 11.163681229983734
- License:
- Abstract: This paper presents a comprehensive evaluation framework for aligning Persian Large Language Models (LLMs) with critical ethical dimensions, including safety, fairness, and social norms. It addresses the gaps in existing LLM evaluation frameworks by adapting them to Persian linguistic and cultural contexts. This benchmark creates three types of Persian-language benchmarks: (i) translated data, (ii) new data generated synthetically, and (iii) new naturally collected data. We translate Anthropic Red Teaming data, AdvBench, HarmBench, and DecodingTrust into Persian. Furthermore, we create ProhibiBench-fa, SafeBench-fa, FairBench-fa, and SocialBench-fa as new datasets to address harmful and prohibited content in indigenous culture. Moreover, we collect extensive dataset as GuardBench-fa to consider Persian cultural norms. By combining these datasets, our work establishes a unified framework for evaluating Persian LLMs, offering a new approach to culturally grounded alignment evaluation. A systematic evaluation of Persian LLMs is performed across the three alignment aspects: safety (avoiding harmful content), fairness (mitigating biases), and social norms (adhering to culturally accepted behaviors). We present a publicly available leaderboard that benchmarks Persian LLMs with respect to safety, fairness, and social norms at: https://huggingface.co/spaces/MCILAB/LLM_Alignment_Evaluation.
- Abstract(参考訳): 本稿では,ペルシャ語大言語モデル(LLM)を安全性,公正性,社会的規範を含む倫理的側面と整合させるための総合的な評価枠組みを提案する。
ペルシャ語と文化の文脈に適応することで、既存のLLM評価フレームワークのギャップに対処する。
このベンチマークは、ペルシア語のベンチマークの3つのタイプを作成します。
(i)翻訳データ
二 合成した新データ及び
(三)新たな自然収集データ。
我々は、Arthhropic Red Teamingデータ、AdvBench、HarmBench、DecodingTrustをペルシア語に翻訳する。
さらに、原住民文化における有害で禁止されたコンテンツに対処するための新しいデータセットとして、ProhibiBench-fa、SafeBench-fa、FairBench-fa、SocialBench-faを作成した。
さらに、ペルシアの文化規範を考えるために、ガードベンチファとして広範なデータセットを収集する。
これらのデータセットを組み合わせることで、ペルシャのLLMを評価するための統一的な枠組みを確立し、文化的に根ざしたアライメント評価への新たなアプローチを提供する。
ペルシャのLLMの体系的評価は、安全(有害な内容を避ける)、公正(バイアスを軽減する)、社会的規範(文化的に受け入れられた行動に従う)の3つの側面にまたがって行われる。
安全、公正、社会的規範に関して、ペルシアのLLMをベンチマークする公開のリーダーボードを提示する。
関連論文リスト
- FaMTEB: Massive Text Embedding Benchmark in Persian Language [9.204800002382042]
本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。
私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
論文 参考訳(メタデータ) (2025-02-17T09:05:21Z) - PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - SafeWorld: Geo-Diverse Safety Alignment [107.84182558480859]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。
SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。
トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-12-09T13:31:46Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models [0.0]
大規模言語モデル(LLM)の普及は、その局所的価値や倫理的基準との整合性をしっかりと評価する必要がある。
textscLocalValueBenchは、LLMがオーストラリアの値に準拠していることを評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-07-27T05:55:42Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。