論文の概要: CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2510.14014v1
- Date: Wed, 15 Oct 2025 18:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.587396
- Title: CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models
- Title(参考訳): CRaFT:多言語言語モデルにおける文化的推論評価のための説明に基づくフレームワーク
- Authors: Shehenaz Hossain, Haithem Afli,
- Abstract要約: CRaFTは,大規模言語モデル(LLM)が文化的文脈にどう影響するかを評価するために設計された,説明に基づく多言語評価フレームワークである。
我々はこの枠組みを、世界価値調査(World Values Survey)から50の文化的根拠のある質問に適用し、アラビア語、ベンガル語、スペイン語に翻訳し、2100以上の回答-説明ペアに対して3つのモデル(GPT、DeepSeek、FANAR)を評価する。
アラビア語は流布を減らし、ベンガル語はそれを強化し、スペイン語は概ね安定している。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Correct answers do not necessarily reflect cultural understanding. We introduce CRaFT, an explanation-based multilingual evaluation framework designed to assess how large language models (LLMs) reason across cultural contexts. Rather than scoring outputs solely based on accuracy, CRaFT evaluates model explanations using four interpretable metrics: Cultural Fluency, Deviation, Consistency, and Linguistic Adaptation. We apply the framework to 50 culturally grounded questions from the World Values Survey, translated into Arabic, Bengali, and Spanish, and evaluate three models (GPT, DeepSeek, and FANAR) across over 2,100 answer-explanation pairs. Results reveal significant cross-lingual variation in reasoning: Arabic reduces fluency, Bengali enhances it, and Spanish remains largely stable. While GPT adapts more effectively across languages, it exhibits lower consistency; FANAR shows stable but rigid reasoning. These findings suggest that cultural awareness in LLMs is not intrinsic but emerges through linguistic framing. CRaFT offers a new lens for evaluating cross-cultural reasoning in multilingual settings, providing actionable insights for building culturally adaptive language models.
- Abstract(参考訳): 正しい答えは必ずしも文化的理解を反映するとは限らない。
CRaFTは,大規模言語モデル(LLM)が文化的文脈にどう影響するかを評価するために設計された,説明に基づく多言語評価フレームワークである。
CRaFTは、正確性のみに基づいてアウトプットを評価するのではなく、4つの解釈可能な指標(文化流束、偏差、一貫性、言語順応)を用いてモデル説明を評価する。
我々はこの枠組みを、世界価値調査(World Values Survey)から50の文化的根拠のある質問に適用し、アラビア語、ベンガル語、スペイン語に翻訳し、2100以上の回答-説明ペアに対して3つのモデル(GPT、DeepSeek、FANAR)を評価する。
アラビア語は流布を減らし、ベンガル語はそれを強化し、スペイン語は概ね安定している。
GPTは言語間でより効果的に適応するが、一貫性は低く、FANARは安定しているが堅固な推論を示す。
これらの結果から, LLMの文化的意識は内在的ではなく, 言語的フレーミングを通じて出現することが示唆された。
CRaFTは、多言語環境での異文化間の推論を評価するための新しいレンズを提供し、文化的適応型言語モデルを構築するための実用的な洞察を提供する。
関連論文リスト
- MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文 参考訳(メタデータ) (2025-07-23T12:56:31Z) - Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition [0.0]
大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
論文 参考訳(メタデータ) (2025-07-05T11:52:09Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。
言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。
その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T07:20:51Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。