論文の概要: Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition
- arxiv url: http://arxiv.org/abs/2507.04014v1
- Date: Sat, 05 Jul 2025 11:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.974264
- Title: Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition
- Title(参考訳): Nunchi-Bench:韓国の迷信に着目した文化推論における言語モデルベンチマーク
- Authors: Kyuhee Kim, Sangah Lee,
- Abstract要約: 大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become key advisors in various domains, their cultural sensitivity and reasoning skills are crucial in multicultural environments. We introduce Nunchi-Bench, a benchmark designed to evaluate LLMs' cultural understanding, with a focus on Korean superstitions. The benchmark consists of 247 questions spanning 31 topics, assessing factual knowledge, culturally appropriate advice, and situational interpretation. We evaluate multilingual LLMs in both Korean and English to analyze their ability to reason about Korean cultural contexts and how language variations affect performance. To systematically assess cultural reasoning, we propose a novel evaluation strategy with customized scoring metrics that capture the extent to which models recognize cultural nuances and respond appropriately. Our findings highlight significant challenges in LLMs' cultural reasoning. While models generally recognize factual information, they struggle to apply it in practical scenarios. Furthermore, explicit cultural framing enhances performance more effectively than relying solely on the language of the prompt. To support further research, we publicly release Nunchi-Bench alongside a leaderboard.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々な領域において重要なアドバイザとなるにつれて、その文化的感受性と推論スキルは多文化環境において不可欠である。
我々は,LLMの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介し,韓国の迷信に着目した。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈と言語の違いがパフォーマンスに与える影響について分析した。
文化的推論を体系的に評価するために,モデルが文化的ニュアンスを認識し,適切な応答を行う程度を把握し,評価基準をカスタマイズした新しい評価戦略を提案する。
本研究は,LLMの文化的理由づけにおける重要な課題を浮き彫りにした。
モデルは一般的に事実情報を認識するが、実践的なシナリオでそれを適用するのに苦労する。
さらに、明示的な文化的フレーミングは、プロンプトの言語のみに依存するよりも、パフォーマンスを効果的に向上させる。
さらなる研究を支援するため、Nunchi-Benchをリーダボードと一緒に公開しています。
関連論文リスト
- Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。
言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。
その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T07:20:51Z) - Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。
我々は、自動適応で起こりうる問題を解析する。
本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。