論文の概要: BengaliMoralBench: A Benchmark for Auditing Moral Reasoning in Large Language Models within Bengali Language and Culture
- arxiv url: http://arxiv.org/abs/2511.03180v1
- Date: Wed, 05 Nov 2025 04:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.328441
- Title: BengaliMoralBench: A Benchmark for Auditing Moral Reasoning in Large Language Models within Bengali Language and Culture
- Title(参考訳): BengaliMoralBench: ベンガル語と文化における大規模言語モデルにおけるモラル推論の監査ベンチマーク
- Authors: Shahriyar Zaman Ridoy, Azmine Toushik Wasi, Koushik Ahamed Tonmoy,
- Abstract要約: ベンガル語は2億8500万人以上が話しており、世界第6位である。
既存の倫理ベンチマークは、主に英語中心で、西洋のフレームワークによって形作られています。
我々はベンガル語と社会文化の文脈に関する最初の大規模倫理ベンチマークであるBengaliMoralBenchを紹介する。
- 参考スコア(独自算出の注目度): 5.215285027585101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As multilingual Large Language Models (LLMs) gain traction across South Asia, their alignment with local ethical norms, particularly for Bengali, which is spoken by over 285 million people and ranked 6th globally, remains underexplored. Existing ethics benchmarks are largely English-centric and shaped by Western frameworks, overlooking cultural nuances critical for real-world deployment. To address this, we introduce BengaliMoralBench, the first large-scale ethics benchmark for the Bengali language and socio-cultural contexts. It covers five moral domains, Daily Activities, Habits, Parenting, Family Relationships, and Religious Activities, subdivided into 50 culturally relevant subtopics. Each scenario is annotated via native-speaker consensus using three ethical lenses: Virtue, Commonsense, and Justice ethics. We conduct systematic zero-shot evaluation of prominent multilingual LLMs, including Llama, Gemma, Qwen, and DeepSeek, using a unified prompting protocol and standard metrics. Performance varies widely (50-91% accuracy), with qualitative analysis revealing consistent weaknesses in cultural grounding, commonsense reasoning, and moral fairness. BengaliMoralBench provides a foundation for responsible localization, enabling culturally aligned evaluation and supporting the deployment of ethically robust AI in diverse, low-resource multilingual settings such as Bangladesh.
- Abstract(参考訳): 多言語大言語モデル(LLM)が南アジア全域で普及するにつれて、特に2億8500万人以上が話しており、世界第6位であるベンガルの倫理的規範との整合性は未解明のままである。
既存の倫理ベンチマークは、主に英語中心で、西洋のフレームワークによって形作られ、現実世界の展開に不可欠な文化的ニュアンスを見下ろしている。
これを解決するために、ベンガル語と社会文化の文脈に関する最初の大規模倫理ベンチマークであるBengaliMoralBenchを紹介する。
5つのモラルドメイン(デイリー・アクティビティ、習慣、育児、家族関係、宗教活動)を50の文化的サブトピックに区分する。
それぞれのシナリオは、3つの倫理的レンズ(ヴィルトゥー、コモンセンス、ジャスティス倫理)を使って、ネイティブスピーカーのコンセンサスを通じて注釈付けされる。
我々は,Llama,Gemma,Qwen,DeepSeekなどの多言語LLMを統一的なプロンプトプロトコルと標準メトリクスを用いて,体系的にゼロショット評価を行う。
質的分析は、文化的根拠、常識的推論、道徳的公正性の一貫性のある弱点を明らかにする。
BengaliMoralBenchは、文化的に整合した評価を可能にし、バングラデシュのような多様な低リソースの多言語環境における倫理的に堅牢なAIの展開をサポートする、責任あるローカライゼーションのための基盤を提供する。
関連論文リスト
- CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models [0.42970700836450487]
CRaFTは,大規模言語モデル(LLM)が文化的文脈にどう影響するかを評価するために設計された,説明に基づく多言語評価フレームワークである。
我々はこの枠組みを、世界価値調査(World Values Survey)から50の文化的根拠のある質問に適用し、アラビア語、ベンガル語、スペイン語に翻訳し、2100以上の回答-説明ペアに対して3つのモデル(GPT、DeepSeek、FANAR)を評価する。
アラビア語は流布を減らし、ベンガル語はそれを強化し、スペイン語は概ね安定している。
論文 参考訳(メタデータ) (2025-10-15T18:49:10Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages [46.3747338016989]
カメリア(Camellia)は、6つの異なるアジア文化にまたがる9つのアジア言語において、エンティティ中心の文化的バイアスを測定するためのベンチマークである。
文化的文脈適応,感情関連,実体抽出QAなど,多言語多言語大言語モデルにおける文化的バイアスの評価を行った。
分析の結果,すべてのアジア諸言語におけるLLMの文化的適応に苦慮する傾向がみられた。
論文 参考訳(メタデータ) (2025-10-06T18:59:11Z) - Cross-Cultural Transfer of Commonsense Reasoning in LLMs: Evidence from the Arab World [68.19795061447044]
本稿では,アラブ世界におけるコモンセンス推論の異文化間移動について検討する。
アラブ13カ国を対象とした文化基盤のコモンセンス推論データセットを用いて,軽量アライメント手法の評価を行った。
以上の結果から,他国の文化特有例は12例に過ぎず,他国の文化特有例を平均10%向上させることができた。
論文 参考訳(メタデータ) (2025-09-23T17:24:14Z) - BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context [36.56689822791777]
Bias Benchmark for Question Answering (BBQ)のような既存のベンチマークは主に西洋の文脈に焦点を当てている。
BharatBBQは、ヒンディー語、英語、マラティー語、ベンガル語、タミル語、テルグ語、オディア語、アッサム語のバイアスを評価するために設計された、文化的に適応したベンチマークである。
我々のデータセットは1つの言語で49,108のサンプルを含み、翻訳と検証によって拡張され、8つの言語で392,864のサンプルとなる。
論文 参考訳(メタデータ) (2025-08-09T20:24:24Z) - BLUCK: A Benchmark Dataset for Bengali Linguistic Understanding and Cultural Knowledge [11.447710593895831]
BLUCKはベンガルの言語理解と文化知識における大規模言語モデル(LLM)の性能を測定するために設計された新しいデータセットである。
私たちのデータセットは、2366の多重選択質問(MCQ)で構成されています。
GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.3-70B-Instruct、DeepSeekV3を含む6つのプロプライエタリおよび3つのオープンソースLCMを用いてBLUCKをベンチマークした。
論文 参考訳(メタデータ) (2025-05-27T12:19:12Z) - Fluent but Foreign: Even Regional LLMs Lack Cultural Alignment [24.871503011248777]
大規模な言語モデル(LLM)は世界中で使用されているが、西洋文化の傾向を示す。
我々は,6つの指標と6つのグローバルLLMを2次元(値とプラクティス)で評価する。
タスク全体では、Indicモデルはグローバルモデルよりもインド標準とよく一致しない。
論文 参考訳(メタデータ) (2025-05-25T01:59:23Z) - Whose Morality Do They Speak? Unraveling Cultural Bias in Multilingual Language Models [0.0]
大規模言語モデル(LLM)は様々な分野において重要なツールとなっているが、その道徳的推論能力はいまだに未熟である。
本研究は, GPT-3.5-Turbo などの多言語 LLM が文化的に特定の道徳的価値観を反映しているか,それとも支配的な道徳的規範を強制するかを検討する。
8つの言語でMFQ-2(Moral Foundations Questionnaire)を改訂し、モデルが6つのコアモラル基礎に忠実であることを分析する。
論文 参考訳(メタデータ) (2024-12-25T10:17:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。