論文の概要: EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.06838v1
- Date: Mon, 08 Sep 2025 16:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.249158
- Title: EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models
- Title(参考訳): EPTベンチマーク:大規模言語モデルにおけるペルシア語信頼性の評価
- Authors: Mohammad Reza Mirbagheri, Mohammad Mahdi Mirkamali, Zahra Motoshaker Arani, Ali Javeri, Amir Mahdi Sadeghzadeh, Rasool Jalili,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い言語タスクで顕著なパフォーマンスを示している。
我々は, LLMの信頼性を評価するために, EPT(Evaluation of Persian Trustworthiness)指標を導入する。
その結果,安全性に重大な欠陥があることが判明した。
我々の発見は、これらのモデルとペルシャの倫理的文化的価値の整合性に関する貴重な洞察を与えてくれる。
- 参考スコア(独自算出の注目度): 2.627150003429427
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs), trained on extensive datasets using advanced deep learning architectures, have demonstrated remarkable performance across a wide range of language tasks, becoming a cornerstone of modern AI technologies. However, ensuring their trustworthiness remains a critical challenge, as reliability is essential not only for accurate performance but also for upholding ethical, cultural, and social values. Careful alignment of training data and culturally grounded evaluation criteria are vital for developing responsible AI systems. In this study, we introduce the EPT (Evaluation of Persian Trustworthiness) metric, a culturally informed benchmark specifically designed to assess the trustworthiness of LLMs across six key aspects: truthfulness, safety, fairness, robustness, privacy, and ethical alignment. We curated a labeled dataset and evaluated the performance of several leading models - including ChatGPT, Claude, DeepSeek, Gemini, Grok, LLaMA, Mistral, and Qwen - using both automated LLM-based and human assessments. Our results reveal significant deficiencies in the safety dimension, underscoring the urgent need for focused attention on this critical aspect of model behavior. Furthermore, our findings offer valuable insights into the alignment of these models with Persian ethical-cultural values and highlight critical gaps and opportunities for advancing trustworthy and culturally responsible AI. The dataset is publicly available at: https://github.com/Rezamirbagheri110/EPT-Benchmark.
- Abstract(参考訳): 高度なディープラーニングアーキテクチャを使用した広範なデータセットに基づいてトレーニングされたLarge Language Models(LLMs)は、さまざまな言語タスクにおいて顕著なパフォーマンスを示し、現代のAI技術の基盤となっている。
しかし、信頼性の確保は、正確なパフォーマンスだけでなく、倫理的、文化的、社会的価値の維持にも不可欠であるため、依然として重要な課題である。
トレーニングデータの慎重な調整と文化的根拠による評価基準は、責任あるAIシステムの開発に不可欠である。
本研究では, 真理性, 安全性, 公正性, 堅牢性, プライバシ, 倫理的整合性という6つの重要な側面にまたがって, LLMの信頼性を評価するために, 文化的に情報を得た指標であるEPT(Evaluation of Persian Trustworthiness)指標を紹介する。
ラベル付きデータセットをキュレートし、自動LLMベースの評価と人的評価の両方を使用して、ChatGPT、Claude、DeepSeek、Gemini、Grok、LLaMA、Mistral、Qwenといった主要なモデルのパフォーマンスを評価しました。
本研究は, モデル行動のこの重要な側面に注意を向ける緊急の必要性を浮き彫りにして, 安全性の面での重大な欠陥を明らかにした。
さらに、これらのモデルとペルシャの倫理的文化的価値観の整合性に関する貴重な洞察を与え、信頼に値する文化的責任を持つAIを前進させるための重要なギャップと機会を強調します。
データセットは、https://github.com/Rezamirbagheri110/EPT-Benchmarkで公開されている。
関連論文リスト
- REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [334.48358909967845]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
ValuesRAGは、テキスト生成中に文化的および人口統計学的知識を動的に統合する新しいフレームワークである。
本研究では,6つの地域データセットを用いてValuesRAGを評価し,ベースラインを一貫して上回ることを示す。
本研究は,グローバルLLM能力と局所文化的価値のギャップを埋める動的検索手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。
ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。
本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models [19.159479032207155]
大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
論文 参考訳(メタデータ) (2023-06-20T12:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。