論文の概要: MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2507.09701v1
- Date: Sun, 13 Jul 2025 16:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.775902
- Title: MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs
- Title(参考訳): MCEval: LLMの多言語文化評価のための動的フレームワーク
- Authors: Shulin Huang, Linyi Yang, Yue Zhang,
- Abstract要約: 大規模な言語モデルは、文化的バイアスと限定的な文化的理解能力を示す。
動的文化的質問構築を用いた多言語評価フレームワークであるMCEvalを提案する。
- 参考スコア(独自算出の注目度): 25.128936333806678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit cultural biases and limited cross-cultural understanding capabilities, particularly when serving diverse global user populations. We propose MCEval, a novel multilingual evaluation framework that employs dynamic cultural question construction and enables causal analysis through Counterfactual Rephrasing and Confounder Rephrasing. Our comprehensive evaluation spans 13 cultures and 13 languages, systematically assessing both cultural awareness and cultural bias across different linguistic scenarios. The framework provides 39,897 cultural awareness instances and 17,940 cultural bias instances. Experimental results reveal performance disparities across different linguistic scenarios, demonstrating that optimal cultural performance is not only linked to training data distribution, but also is related to language-culture alignment. The evaluation results also expose the fairness issue, where approaches appearing successful in the English scenario create substantial disadvantages. MCEval represents the first comprehensive multilingual cultural evaluation framework that provides deeper insights into LLMs' cultural understanding.
- Abstract(参考訳): 大規模な言語モデルでは、文化的バイアスと文化横断的な理解能力が制限されており、特に多様なグローバルなユーザー層にサービスを提供している。
動的文化的質問構築を取り入れた多言語評価フレームワークであるMCEvalを提案する。
包括的評価は13の文化と13の言語に及び、異なる言語シナリオにおける文化的認識と文化的バイアスの両方を体系的に評価する。
このフレームワークは、39,897の文化的認識インスタンスと17,940の文化的バイアスインスタンスを提供する。
実験の結果,様々な言語シナリオにおける性能格差が明らかとなり,最適な文化的パフォーマンスは学習データ分布と関係しているだけでなく,言語文化のアライメントにも関係していることが示された。
評価結果は、英語のシナリオで成功したアプローチが実質的な不利を生み出すという公平性の問題も露呈する。
MCEvalは、LLMの文化的理解に関する深い洞察を提供する、最初の総合的な多言語文化評価フレームワークである。
関連論文リスト
- MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition [0.0]
大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
論文 参考訳(メタデータ) (2025-07-05T11:52:09Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - From Word to World: Evaluate and Mitigate Culture Bias via Word Association Test [48.623761108859085]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好を緩和するために,カルチャー対応のステアリング機構を統合する革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。