論文の概要: MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints
- arxiv url: http://arxiv.org/abs/2508.05429v1
- Date: Thu, 07 Aug 2025 14:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.903275
- Title: MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints
- Title(参考訳): MyCulture: 低リソース言語制約下でマレーシアの異文化を探る
- Authors: Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng chan,
- Abstract要約: MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
- 参考スコア(独自算出の注目度): 7.822567458977689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often exhibit cultural biases due to training data dominated by high-resource languages like English and Chinese. This poses challenges for accurately representing and evaluating diverse cultural contexts, particularly in low-resource language settings. To address this, we introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on Malaysian culture across six pillars: arts, attire, customs, entertainment, food, and religion presented in Bahasa Melayu. Unlike conventional benchmarks, MyCulture employs a novel open-ended multiple-choice question format without predefined options, thereby reducing guessing and mitigating format bias. We provide a theoretical justification for the effectiveness of this open-ended structure in improving both fairness and discriminative power. Furthermore, we analyze structural bias by comparing model performance on structured versus free-form outputs, and assess language bias through multilingual prompt variations. Our evaluation across a range of regional and international LLMs reveals significant disparities in cultural comprehension, highlighting the urgent need for culturally grounded and linguistically inclusive benchmarks in the development and assessment of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、英語や中国語のような高リソース言語が支配する訓練データにより、しばしば文化的偏見を示す。
これは、特に低リソースの言語設定において、多様な文化的文脈を正確に表現し、評価する上での課題となる。
MyCultureは、マレーシアの文化において、芸術、服装、習慣、エンターテイメント、食べ物、宗教の6つの柱にまたがって、LLMを総合的に評価するためのベンチマークである。
従来のベンチマークとは異なり、MyCultureは事前定義されたオプションを使わずに、新しいオープンな複数選択質問フォーマットを採用しており、推測と緩和フォーマットバイアスを低減している。
我々は、このオープンエンド構造の有効性を理論的に正当化し、公平性と識別力の両方を改善する。
さらに、構造化された出力と自由形式の出力のモデル性能を比較して構造バイアスを分析し、多言語的プロンプト変動による言語バイアスを評価する。
地域・国際LLMにおける評価は, 文化的理解の相違が顕著であり, LLMの開発・評価において, 文化的基盤と言語学的包括的ベンチマークの急激な必要性が浮き彫りにされている。
関連論文リスト
- MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs [25.128936333806678]
大規模な言語モデルは、文化的バイアスと限定的な文化的理解能力を示す。
動的文化的質問構築を用いた多言語評価フレームワークであるMCEvalを提案する。
論文 参考訳(メタデータ) (2025-07-13T16:24:35Z) - Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition [0.0]
大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
論文 参考訳(メタデータ) (2025-07-05T11:52:09Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。
言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。
その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T07:20:51Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。